本発明は、概して、変換オーディオ符号化システムに関し、特に、時間伸縮技術を用いて、入力オーディオ信号のピッチ周波数をシフトすることで、符号化効率および音質を向上させる変換オーディオ符号化システムに関する。なお、当該オーディオ符号化システムは、オーディオだけでなく、スピーチ信号にも適用でき、携帯電話や電話・テレビ会議にも、使用できる。
変換符号化技術は、オーディオ信号を、効率的に符号化するように設計されている。人間の発話では、信号の基本的周波数が、時々変化する。これにより、スピーチ信号のエネルギーは、広範な周波数帯域に拡散する。そして、特に、低ビットレートにおいては、ピッチが変化するスピーチ信号を、変換コーデックによって、符号化することは、効率的ではない。なお、例えば、時間伸縮技術は、先行技術[3]、[4]において、ピッチ変化の影響を補うために用いられている。
図10は、基本的周波数をシフトするという概念の例を示す図である。
時間伸縮技術は、ピッチシフトを実現するために用いられる。図10の(a)欄のスペクトラムは、元のスペクトラムであり、図10の(b)欄のスペクトラムは、ピッチシフト後のスペクトラムである。
図10の(b)欄では、基本的周波数が、200Hzから100Hzにシフトされている。こうして、次フレームのピッチを、先行フレームのピッチに合わせるようにシフトすることで、ピッチが安定する。
図11は、ピッチシフト後のスペクトラムを示す図である。
したがって、信号エネルギーが、図11に示すように集中する。
図11の(a)欄の信号は、スイープ信号である。そして、図11の(b)欄の信号は、ピッチシフト後の信号であり、(b)欄でのピッチは、一定になる。
一方、図11の(c)欄の2つのスペクトラムは、信号(a)および信号(b)のスペクトラムである。図11の(c)欄において、信号(b)のエネルギーは、狭帯域に制限されるのが示される。
ここで、上述のようなピッチシフトは、再サンプリング方法を用いて達成される。安定したピッチを維持するために、再サンプリングレートが、ピッチ変化レートに従って変化する。そして、ピッチトラッキングアルゴリズムを適用することで、入力フレームのピッチ輪郭が得られる。
図8は、1オーディオフレームのセグメント化を説明する図である。
図8に示されるように、フレームは、ピッチトラッキングのため、小さなセクションにセグメント化される。なお、ここで、隣接セクションは、重なっていてもよい。つまり、例えば、少なくとも1つの組み合わせにおいては、その組み合わせの、互いに隣接する2つのセクションのうちの一方のセクション(の一部)が、他方のセクション(の一部)に重なってもよい。
そして、従来例としては、現在のところ、自己相関に基づくピッチトラッキングアルゴリズム[1]、および、周波数領域に基づくピッチ検出方法[2]がある。
各セクションは、そのセクションに対応するピッチ値を有する。
図15は、ピッチ輪郭の算出の処理を示す図である。
図15の(a)欄の信号は、時変ピッチを有する信号である。信号の1セクションから、1つのピッチ値が算出される。ピッチ輪郭は、ピッチ値の連鎖である。
時間伸縮の間、再サンプリングレートは、ピッチ変化レートに比例している。
ピッチ変化情報は、ピッチ輪郭から抽出される。
なお、このピッチ変化レートの測定には、セントおよび半音が頻繁に用いられる。
図12は、セントおよび半音の長さを示す図である。セントは、隣接ピッチのピッチ比から算出される。
ピッチ変化レートに従って、再サンプリングが、時間領域信号に適用される。他のセクションのピッチが、参照ピッチにシフトされ、安定したピッチを得る。例えば、次のセクションのピッチが、先行ピッチよりも高ければ、再サンプリングレートは、それらの2ピッチの間の、セントの差分に比例して、より低く設定される。そうでなければ、サンプリングレートは、より高くなければならない。
なお、ここで、音声再生速度を調整可能な記録再生装置があるとして、高音の音の再生速度を下げることで、音域が、低周波数にシフトされる。これは、ピッチ変化レートに比例して、信号を再サンプリングする概念に似ている。
図13および図14は、時間伸縮方式を組み入れた符号化システムを示す。
図13は、エンコーダ(エンコーダ13A)における時間伸縮のブロック図である。
図14は、デコーダ(デコーダ14A)における時間伸縮のブロック図である。
変換符号化の前に、時間領域信号が時間伸縮される。デコーダにおける逆時間伸縮において、ピッチ情報が必要である。よって、ピッチ比は、エンコーダで符号化されなければならない。
そして、先行技術において、これらのピッチ比情報の符号化に、小さな固定テーブルが用いられている。ピッチ比の符号化には、小さなビットが用いられる。しかしながら、信号のピッチ変化レートが大きいときに、小さなテーブルでは、限界があり、時間伸縮の性能は落ちる。
しかしながら、大きなテーブルが用いられる際には、より多くのビットを使用し、変換符号化のために、十分なビットが残らないために、音質も落ちる。現在のところ、固定テーブルを用いた時間伸縮の効果は限られている。
なお、上述された処理(符号化など)は、後で詳しく説明されるように、例えば、将来定められることが想定される、ISO(International Organization for Standardization)等の規格における処理と同じ処理である。
[4] 米国特許出願公開第2008/0004869(A1)号明細書(Juergen Herre, “Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic”)
時間伸縮を用いる動機は、1フレーム内のピッチを安定させ、符号化効率の改善を達成することである。時間伸縮は、ある程度、ピッチトラッキングの精度に依存する。
しかしながら、ピッチ輪郭検出の課題は、信号の振幅および軌道の変化により、困難が生じることがあることである。つまり、平滑化や、微調整閾値パラメータのような、ポスト処理方式が、ピッチ検出精度の改善のために、いくつか導入されているが、それらの方式は、特定のデータベースに基づいている。
時間伸縮が、不正確なピッチ輪郭に基づいて適用されれば、音質が落ち、時間伸縮情報の送信に用いられたビットが無駄になる。したがって、検出されたピッチ輪郭を、無分別に指針としないような時間伸縮を設計する必要がある。
現在のところ、先行技術の時間伸縮における、従来より利用可能な技術としては、ピッチ輪郭情報を符号化する効率的な方法を欠いている。
ここで、先行技術において、ピッチ輪郭を表現するためには、固定テーブルが用いられている。
そして、小さなテーブルは、ピッチが大きく変化する状況には、不十分であるが、より大きなテーブルは、より大きなビットの使用を必要とする。これにより、特に、低ビットレートの符号化において、コスト高となる可能性がある。これは、時間伸縮パラメータの送信に、ビットを使用することで、符号化効率を改善することの代償である。
したがって、時間伸縮パラメータを、より効率的に符号化する方法があれば、節約したビットを、変換符号化に用いることができることから、音質を向上させることができ、かつ、ピッチ変化の大きい信号に対応することができる。
時間伸縮方式を、変換符号化システムに取り入れる簡易な方法は、時間伸縮方式を、直接的に、変換符号化に連結させることである。先行技術において、時間伸縮方式は、変換符号化から独立している。時間伸縮の目的は、変換符号化の効率の向上であることから、変換符号化システムから、何らかの符号化情報を用いることは、時間伸縮の役に立つ。現在の時間伸縮を用いた変換符号化構造は、改善の必要がある。
また、他の目的は、ピッチ変化比(図18の比88を参照)の変域が、適切な変域(範囲86を参照)にできる符号化装置、復号装置等を提供することを含む。また、他の目的は、適切な処理が、より広い範囲の変域のピッチ変化比(図18の比88を参照)のときに行われて、音質が高くできる符号化装置等を提供することを含む。また、他の目的は、ピッチ(図16のピッチ822、比83、図18の比88等を参照)が符号化された符号(図18の符号90を参照)のデータ(図22のデータ90Lを参照)のデータ量(例えば平均量など)が小さくできる符号化装置等を提供することを含む。そして、ひいては、他の目的は、将来定められる、ISO等の規格における処理を行い、かつ、比較的適切に処理をする符号化装置等を提供することを含む。
本発明の符号化装置は、入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタと、検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比(図18のTw_ratioを参照)の変域(範囲86を参照)は、当該範囲(範囲86a参照)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio、Tw_ratio_index:図18)を含むピッチパラメータを生成するピッチパラメータジェネレータと、生成された前記ピッチパラメータを符号化する第1のエンコーダと、前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタと、前記ピッチシフタから出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダと、前記第1のエンコーダから出力された符号化ピッチパラメータと、前記第2のエンコーダから出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサとを備える符号化装置である。
つまり、具体的には、前記第1のエンコーダは、前記ピッチパラメータ(図18の比88を参照)を、当該ピッチパラメータが、比較的小さな絶対値のセント数(図18のcentを参照)のピッチ変化比のピッチパラメータ(比88aを参照)である場合には、比較的短い符号長の符号の符号化ピッチパラメータ(符号90aを参照)へと符号化し、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータ(比88bを参照)である場合には、比較的長い符号長の符号の符号化ピッチパラメータ(符号90bを参照)へと符号化する符号化装置が構築される。
本発明の復号装置は、ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する復号装置であって、復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサと、分離された前記符号化ピッチパラメータ情報から、当該ビット変化比(図18のTw_ratioを参照)の変域(範囲86を参照)は、当該範囲(範囲86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio、Tw_ratio_index:図18)を含む復号ピッチパラメータを生成する第1のデコーダと、生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタと、分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダと、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタとを備える復号装置である。
つまり、具体的には、前記第1のデコーダは、分離された前記符号化ピッチパラメータ情報を、当該符号化ピッチパラメータ情報が、比較的短い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的小さな絶対値のセント数のピッチ変化比のピッチパラメータへと復号し、比較的長い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータへと復号する復号装置が構築される。
こうして、例えば、符号化装置と、復号装置とを含んでなる、次のような信号処理システムが構築されてもよい(実施形態の冒頭の説明等を併せて参照されたい)。
つまり、当該信号処理システムにおいて、前記符号化装置は、前記ピッチシフタが、第1の信号から、当該第1の信号のピッチが、予め定められたピッチへとシフトされた第2の信号を生成し、前記第2のエンコーダが、生成された前記第2の信号を、第3の信号へと符号化し、前記ピッチパラメータジェネレータが、シフトがされる前の前記第1の信号の前記ピッチを特定するピッチ変化比を算出し、前記第1のエンコーダが、算出された当該ピッチ変化比を符号へと符号化する符号化装置である。
そして、前記復号装置は、前記第2のデコーダが、前記第1の信号から生成された、当該第1の信号の前記ピッチが前記予め定められたピッチへとシフトされた前記第2の信号が符号化された前記第3の信号を、前記第2の信号へと復号し、前記オーディオ信号リコンストラクタが、復号された前記第2の信号から前記第1の信号を生成し、前記第1のデコーダが、前記符号を、前記ピッチ変化比へと復号し、前記ピッチ輪郭リコンストラクタが、復号された前記ピッチ変化比により特定される、当該ピッチの前記第1の信号が生成される前記ピッチを算出する復号装置である。
そして、前記ピッチ変化比が符号化された、当該ピッチ変化比へと復号される前記符号は、当該符号に対応する前記ピッチ変化比が、0セントの音程の差の2つのピッチの間のピッチ変化比に対して、比較的小さな差を有する第1のピッチ変化比である場合には、比較的短い符号長の第1の符号であり、比較的大きな差を有する第2のピッチ変化比である場合には、比較的長い符号長の第2の符号である。
そして、シフトがされた前記第2の信号が符号化された前記第3の信号が、前記符号化装置で生成され、前記復号装置で復号される動作は、シフトがされる前の前記第1の信号の前記ピッチの前記ピッチ変化比が、0セントの前記ピッチ変化比に対して有する差が、閾値以下の場合にのみ行われ、前記閾値よりも大きい場合には行われず、当該閾値は、42セント未満の音程での値ではなく、42セント以上に大きな音程での値である。
すなわち、上述の説明の課題で述べた通り、ピッチ輪郭が不正確であると、時間伸縮後の音質の低下につながる可能性がある。
そこで、この課題を克服するために、動的時間伸縮方式を提案する。それは、ハーモニクス構造も考慮した時間伸縮方式である。
時間伸縮の間、ピッチシフトと共に、ハーモニクスが修正されるので、時間伸縮の間の信号のハーモニクス構造を考慮する必要がある。
そこで、提案のハーモニクス時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することにより、音質を改善する。
提案の動的時間伸縮は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の効率を評価し、対象フレームに、時間伸縮を利用するかどうかを決定する。それは、不正確なピッチ輪郭によってもたらされる不正確性を取り除く。
先行技術において、ピッチ輪郭情報は、圧縮されずに、直接、デコーダに送られる。動的時間伸縮において、時間伸縮パラメータを、より効率的に符号化する方法を提案する。時間伸縮のために、ピッチ輪郭を統計的に分析した後に、信号フレーム内で、ピッチが変化する僅かな位置においてのみ、時間伸縮が有効にされていることが分かる。
したがって、時間伸縮が適用されている部分でのみ情報を符号化すると、より効率的である。
また、ピッチ変化値の発生する確率が一様でないことから、時間伸縮パラメータの符号化に、可逆符号化を用いることで、ビットを節約できる。
提案の動的時間伸縮では、時間伸縮が適用される位置の情報と、その位置の時間伸縮値とを用いる。先行技術に記載のように、固定テーブルを用いて、ピッチ輪郭全体を符号化することで、ビットが節約される。
提案の動的時間伸縮は、また、広範囲の時間伸縮値に対応する。なお、対応するとは、適切な動作ができることなどを意味する。節約されたビットが、変換符号化に用いられ、かつ、広範囲の時間伸縮値により、音質が改善される。
一方、多くの変換符号化システムにおいて、ステレオオーディオ信号の符号化に、MSステレオモード(Mid Side Stereo Mode)を使用している。変換符号化システムからのMSモード情報を使用することで、時間伸縮の性能を改善する、新たな構造を提案する。左右のチャネルが、互いに類似した特性を有するとき、左右の信号に、同じ時間伸縮パラメータを使用すると、より効率的である。左右のチャネルが大きく異なるときには、時間伸縮を共用すると、符号化効率が下がる場合がある。よって、提案の変換符号化構造における時間伸縮に、MSモードを導入する。
なお、例えば、当該復号装置により受信される前記ビットストリーム(ビットストリーム106x、205i等を参照)は、1つのフレーム(図16のフレーム84Fを参照)における複数の位置(セクション841〜84Mを参照)のうちで、当該ピッチ変化位置(図9の位置704pを参照)における信号のみが前記オーディオ信号リコンストラクタによりTimeWarp(ピッチシフト)され、他の位置の信号はTimeWarpされないピッチ変化位置(位置704pを参照)を特定する位置情報(データ102m:図9)を含む復号装置が構築されてもよい。
本発明において説明する時間伸縮方式では、オーディオ信号のハーモニクス構造を分析した情報に基づいて、ピッチ輪郭を修正し、時間伸縮処理の前後のハーモニクス構造を比較することにより、時間伸縮の効率を評価する。このことで、対象オーディオフレームに、時間伸縮を利用するべきかどうかを決定するものである。その処理により、検出されたピッチ輪郭情報の不正確性によりもたらされる音質劣化を防ぐことができ、音質が高くできる。さらに、本発明の時間伸縮技術では、変換符号化からのMSステレオモード情報を利用することで、音質およびオーディオ符号化システムの符号化効率を改善できる。
ピッチ変化比(図18の比88を参照)の変域が、適切な変域(範囲86を参照)にできる。
適切な処理が、より広い範囲の変域のピッチ変化比(図18の比88を参照)のときに行われて、音質が高くできる。
ピッチ(図16のピッチ822、比83、図18の比88等を参照)が符号化された符号(図18の符号90を参照)のデータ量(例えば、データ量の平均等)が小さくできる。
図1は、動的時間伸縮を用いるエンコーダのブロック図である。
図2は、動的時間伸縮を用いるデコーダのブロック図である。
図3は、変更された動的時間伸縮デコーダを用いるデコーダのブロック図である。
図4は、MSモードを利用する動的時間伸縮を用いるエンコーダのブロック図である。
図5は、MSモードを利用する動的時間伸縮を用いるデコーダのブロック図である。
図6は、MSモードを利用する変更された動的時間伸縮を用いるエンコーダのブロック図である。
図7は、閉ループ動的時間伸縮を用いるエンコーダのブロック図である。
図8は、1オーディオフレームのセグメント化を説明する図である。
図9は、ベクトルCの算出を説明する図である。
図10は、ピッチシフトを説明する図である。
図11は、ピッチシフト後のスペクトラムである。
図12は、セントおよび半音を説明する図である。
図13は、エンコーダにおける時間伸縮のブロック図である。
図14は、デコーダにおける時間伸縮のブロック図である。
図15は、ピッチ輪郭の算出を説明する図である。
図16は、対数目盛に基づくスペクトラムである。
図17は、ハーモニクスを利用するピッチシフトを説明する図である。
図18は、表を示す図である。
図19は、先行例での表を示す図である。
図20は、符号化装置および復号装置を示す図である。
図21は、処理の流れを示す流れ図である。
図22は、先行例と本装置とのそれぞれでのデータを示す図である。
以下、説明を参照して、本発明を実施するための形態が説明される。
実施の形態のシステム(図20のシステム2S)に設けられる、実施の形態の符号化装置(符号化装置1)は、入力オーディオ信号(信号101i(図1):図11の信号811を参照)の(のピッチ(例えばピッチ822(図15))を特定する)ピッチ輪郭情報(情報(ピッチ)101x、ピッチ822(図15))を検出するピッチディテクタ(ピッチ輪郭分析ブロック(ピッチ輪郭分析部)101)と、検出された前記ピッチ輪郭情報(情報101x)に基づいて、当該ビット変化比(Tw_ratio(図18)、比83(図15)、比88(図18))の変域(範囲86:図18)は、当該範囲(範囲86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio:図18)を含むピッチパラメータ(パラメータ(ピッチ変化比)102x、比88(図18))を生成するピッチパラメータジェネレータ(動的時間伸縮ブロック102)と、生成された前記ピッチパラメータ(パラメータ102x)を(符号90(図18)へと)符号化する第1のエンコーダ(可逆符号化部103)と、前記ピッチ輪郭情報(情報(ピッチ)101x、ピッチ822)に従って、前記入力オーディオ信号(信号(第1の信号)101i)のピッチ周波数(ピッチ822:図15)を(参照ピッチ82r(図15)へと)シフトするピッチシフタ(時間伸縮ブロック104)と、前記ピッチシフタから出力された、シフトがされたオーディオ信号(第2の信号104x)を(、符号化された第3の信号150xへと)符号化する第2のエンコーダ(変換エンコーダブロック105)と、前記第1のエンコーダ(可逆符号化ブロック103)から出力された符号化ピッチパラメータ(パラメータ103x、符号90)と、前記第2のエンコーダ(変換エンコーダブロック105)から出力された、前記ピッチシフタから出力された前記オーディオ信号(信号(第2の信号)104x)が符号化されたデータ(第3の信号105x)とを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリーム(ストリーム106x)を生成するマルチプレクサ(マルチプレクサブロック(マルチプレクサ回路)106)とを備える符号化装置(符号化装置1)である。
なお、1セントは、例えば、半音を構成する100セントの音程90j(図12)の、100分の1だけの音程(2つのピッチ(図15の2つのピッチ821、822を参照)の間の差)をいい、換言すれば、1オクターブの音程の、1200分の1だけの音程をいう。
なお、例えば、生成されるピッチパラメータの全体が、ピッチ変化比でもよいし、一部が、ピッチ変化比でもよい。そして、一部等がピッチ変化比である、このようなピッチパラメータは、生成される複数のピッチパラメータのうちの、1つでもよい。
つまり、例えば、前記第1のエンコーダ(可逆符号化103)は、前記ピッチパラメータ(パラメータ102x(図1)、比88(図18))を、当該ピッチパラメータ(比88)が、比較的小さな絶対値(0)のセント数(±0:図18のcentを参照)の(音程の幅の2つのピッチ(ピッチ821、822(図15)を参照)での)ピッチ変化比(例えば1.0)のピッチパラメータ(比88a)である場合には、比較的短い符号長(長さ1:図18のbitsを参照)の符号(符号90a:「0」)の符号化ピッチパラメータ(符号90a)へと符号化し、比較的大きな絶対値(50)のセント数(+50)のピッチ変化比(1.0293:符号88b)のピッチパラメータ(符号88b)である場合には、比較的長い符号長(「111100」での長さ6)の符号(符号90b:「111100」)の符号化ピッチパラメータ(符号90b)へと符号化する符号化装置(符号化装置1)が構築される。
そして、実施の形態の復号装置(図2の復号装置2)は、ピッチシフトされたオーディオ信号(第2の信号203ib:図2)の符号化データ(第3の信号)204iと、符号化ピッチパラメータ情報(パラメータ201i、符号90)とを含むビットストリーム(ストリーム205i(ストリーム106x))を復号する復号装置(復号装置2)であって、復号を行う前記ビットストリーム(ストリーム205i)から、当該ビットストリームに含まれる前記符号化データ(図2の第3の信号204i(図1の第3の信号105x))と、前記符号化ピッチパラメータ情報(パラメータ201i、符号90)とをそれぞれ分離するデマルチプレクサ(マルチプレクサブロック205)と、分離された前記符号化ピッチパラメータ情報(パラメータ201i、符号90)から、当該ビット変化比(比88、Tw_ratio_index、Tw_ratio:図18)の変域(範囲86)は、当該範囲(86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(比88、Tw_ratio_index、Tw_ratio:図18)を含む復号ピッチパラメータ(パラメータ202i、符号90)を生成する第1のデコーダ(可逆復号ブロック201)と、生成された前記復号ピッチパラメータ(パラメータ202i、符号90)に従って、ピッチ輪郭情報(情報203ia、ピッチ822)を復元するピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック202)と、分離された前記符号化データ(信号204i、第3の信号204i)を復号して、ピッチシフトされた前記オーディオ信号(信号(第2の信号)203ib)を生成する第2のデコーダ(変換デコーダブロック204)と、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報(情報203ia、ピッチ822)に従って、ピッチシフトされた前記オーディオ信号(信号(第2の信号)203ib)を、(前記再構築ピッチ輪郭情報により特定されるピッチを有する、)元のオーディオ信号(第2の信号203x)に変換するオーディオ信号リコンストラクタ(時間伸縮ブロック203)とを備える復号装置(復号装置2)である。
つまり、例えば、前記第1のデコーダ(可逆復号ブロック201:図2)は、分離された前記符号化ピッチパラメータ情報(パラメータ201i(図2)、符号90(図18))を、当該符号化ピッチパラメータ情報(符号90(図18))が、比較的短い符号長(長さ1:図18のbitsを参照)の符号(符号90a:「0」)の符号化ピッチパラメータ情報(符号90a)である場合には、比較的小さな絶対値(0)のセント数(0:図18のcentを参照)のピッチ変化比(1.0、比88a)のピッチパラメータ(比88a)へと復号し、比較的長い符号長(符号90b「111100」での長さ6)の符号(符号90b:「111100」)の符号化ピッチパラメータ情報(符号90b)である場合には、比較的大きな絶対値(50)のセント数(50)のピッチ変化比(1.0293:比88b)のピッチパラメータ(比88b)へと復号する復号装置(復号装置2)が構築される。
つまり、例えば、符号化装置(符号化装置1(図1、図20など)、ステップS1(図21)等を参照)と、復号装置(復号装置2、ステップS2等を参照)とを含んでなる、次のような信号処理システム(信号処理システム2S)が構築されてもよい。
つまり、当該信号処理システムにおいて、前記符号化装置は、例えば、前記ピッチシフタ(時間伸縮部104)が、第1の信号(第1の信号101i、入力オーディオ信号(先述):図1)から、当該第1の信号のピッチ(ピッチ822:図15)が、予め定められたピッチ(参照ピッチ82r)へとシフトされた第2の信号(第2の信号104x、シフトがされたオーディオ信号(先述))を生成し、前記第2のエンコーダ(変換エンコーダ105)が、生成された前記第2の信号(第2の信号104x)を、第3の信号(第3の信号105x、ピッチシフタから出力された前記オーディオ信号が符号化されたデータ(先述))へと符号化し、前記ピッチパラメータジェネレータ(ピッチパラメータ生成部(動的時間伸縮ブロック)102)が、シフトがされる前の前記第1の信号(第1の信号101i)の前記ピッチ(ピッチ822)を特定するピッチ変化比(パラメータ102x(図1)、比88(図18)、Tw_ratio、Tw_ratio_index)を算出し、前記第1のエンコーダ(可逆符号化部103)が、算出された当該ピッチ変化比を符号(符号90(図18)、パラメータ(符号化パラメータ、符号化ピッチパラメータ)103x(図1))へと符号化する符号化装置(符号化装置1:符号化装置1a、1e、1f、1h、1i(図1、図3、図4、図6、図7など))などである。
そして、前記復号装置は、例えば、前記第2のデコーダ(変換デコーダ204)が、前記第1の信号(第1の信号203x(第1の信号101i))から生成された、当該第1の信号(第1の信号203x)の前記ピッチ(ピッチ822:図15)が前記予め定められたピッチ(参照ピッチ82r)へとシフトされた前記第2の信号(第2の信号203ib(第2の信号104x))が符号化された前記第3の信号(第3の信号204i(第3の信号105x))を、前記第2の信号(第2の信号203ib(第2の信号104x))へと復号し、前記オーディオ信号リコンストラクタ(時間伸縮部203)が、復号された前記第2の信号(第2の信号203ib)から前記第1の信号(第1の信号203x)を生成し、前記第1のデコーダ(可逆復号部201)が、前記符号(パラメータ201i(パラメータ103x)、符号90(図18))を、前記ピッチ変化比(パラメータ202i(パラメータ102x)、比88(比88の番号)、Tw_ratio、Tw_ratio_index)へと復号し、前記ピッチ輪郭リコンストラクタ(202)が、復号された前記ピッチ変化比(比88)により特定される、当該ピッチ(ピッチ822)の前記第1の信号(第1の信号203x)が生成される前記ピッチ(ピッチ822)を算出する復号装置(復号装置2:復号装置2c、2g(図2、図5など))などである。
なお、この種の信号処理システムの技術開発は、現在、進められつつある途中であり(非特許文献1〜4などを参照)、このような信号処理システムについては、よく分かっていないことが多い。
つまり、例えば、そもそも、多くの技術者は、このような信号処理システムを知らず、その技術開発に着手する段階にさえ到っていないと考えられる。
つまり、将来、このような信号処理システムの規格(ISO(International Organization for Standardization)における規格など)が定められることが考えられる。そして、定められた後において、比較的広く利用されることが期待される。
例えば、本信号処理システムは、将来定められる規格における信号処理システムである。
このような信号処理システムによれば、例えば、シフトがされた第2の信号(第2の信号104x、203ib)が第3の信号(第3の信号105x、204i)へと符号化され、符号化された第3の信号が、当該第2の信号へと復号される。これにより、符号化装置から復号装置への通信などの処理がされる、音のデータ(第3の信号)が、データ量が小さいデータなどの、より適切なデータにできる。
なお、これにより、ひいては、音のデータが、このように小さいにも関わらず、音質が下げられる必要がなく、高い音質で足りて、音質が高くできる。
しかも、ピッチ変化比が算出されて、第3の信号から復号された第2の信号のシフトがされるのに際して、算出されたピッチ変化比により特定されるピッチへのシフトがされて、確実に、シフトがされる、シフト先のピッチが、適切なピッチにできる。
しかも、算出されたピッチ変化比が符号へと符号化され、符号化された符号が、ピッチ変化比へと復号されて、ピッチ変化比のデータ量よりも小さいデータ量である符号について、通信などの処理がされて、処理がされる、ピッチのデータ(ピッチ変化比が符号化された符号(符号90))のデータ量も小さくできる。
そして、このような信号処理システム(符号化装置1、復号装置2)において、前記ピッチ変化比(比88)が符号化された、当該ピッチ変化比(比88)へと復号される前記符号(符号90)は、当該符号(符号90)に対応する前記ピッチ変化比(比88)が、0セントの音程の差の2つのピッチの間のピッチ変化比(1.0の比88x:図18)に対して、比較的小さな差(0セント)を有する第1のピッチ変化比(比88a)である場合には、比較的短い符号長(長さ1)の第1の符号(符号90a)であり、比較的大きな差(50セント)を有する第2のピッチ変化比(比88b)である場合には、比較的長い符号長の第2の符号(符号90b)等である。
つまり、上記された差が、小さな差である場合には、その差のピッチ変化比(比88a)が出現する出現頻度が高く、大きな差である場合には、その差のピッチ変化比(比88b)の出現頻度が低いことが多いことがあるのに、発明者は、実験を通じて気付いた。
そこで、こうして、差(0セントの比8xに近いか否か(どの程度離れているか))に応じた可変長符号化が利用されてもよい。これにより、第3の信号(信号105x、204i)のデータ量が小さくされて、通信などの処理がされる、ピッチのデータ(信号103x、201i)のデータ量が、より十分に小さくできる。
そして、具体的には、例えば、このような信号処理システムにおいて、シフトがされた前記第2の信号(信号104x、203ib)が符号化された前記第3の信号(第3の信号204i、信号105x)が、前記符号化装置で生成され、前記復号装置で復号される動作(図21のS1、S2)は、シフトがされる前の前記第1の信号(第1の信号101i、203x)の前記ピッチ(ピッチ822)の前記ピッチ変化比(比88)が、0セントの前記ピッチ変化比(比88x)に対して有する差が、閾値(図18における、max{1.0416−1=0.0416、1−0.9604=0.0396}=0.0416)以下の場合(「差」≦0.0416)にのみ行われ、前記閾値よりも大きい場合(0.0416<「差」)には行われない。
そして、例えば、当該閾値は、42セント未満の音程での値(例えば、図19の先行例における、1.02285−1=0.02285など)ではなく、42セント以上に大きい音程での値(上述された、0.0416など)である。
すなわち、こうして、先述された動作がされるか否かが切り替えられる、上述された閾値が、(先行例での閾値(図19での、上述された「0.02285」を参照)と比べて、)より高い値(例えば、図18における、max{1.0416−1=0.0416、1−0.9604=0.0396}=0.0416)にされてもよい。
つまり、先述の動作がされるピッチ変化比(比88)の範囲(変域)が、(先行例での範囲87)より広い範囲86(図18)にされてもよい。
これにより、より広い範囲の変域のピッチ変化比が符号化されて、符号化された符号90のデータ(図22のデータ90L)のデータ量が、より大きくされる。これにより、符号化されたデータ90Lのデータ量が、例えば、先行例における、固定長の符号91で符号化されたデータ91L(図19)のデータ量よりも(かなり)少ないデータ量などの、少な過ぎるデータ量になってしまうことが回避され、比較的近いデータ量(例えば同じデータ量でもよい)などの、適切なデータ量にされ、符号化後のデータ量が、適切なデータ量にできる。
なお、このように、例えば、ピッチ変化比の変域の範囲(上述の閾値)は、符号化された符号90によるデータ(データ90L)のデータ量が、このような、例えば、固定長での符号化がされた際(先行例)におけるデータ(例えばデータ91L)のデータ量に比較的近いデータ量などの、適切なデータ量である範囲(閾値)等である。
しかも、発明者は、実験を通じて、ピッチ変化比(比88)は、直前のピッチ(ピッチ821:図15)に対して、セント数が(42セントより)大きい範囲86aのピッチ変化比だけの大きな変化をしたピッチ(ピッチ822:図15)のピッチ変化比であることが(ある程度)多いことに気づいた。
このため、このような大きな変化のピッチ変化比(比88)が生じても、そのピッチ変化比が、上述の、より広い範囲の変域(範囲86)に属し、第3の信号105xが生成され、第3の信号105xの音質よりも低い音質の他の信号が生成される処理がされるのが回避されるなどにより、音質が高くできる。
これにより、ピッチ変化比の変域が、適切な変域にでき、かつ、音質が高くできる。
なお、こうして、例えば、図18に示されるように、上述された、短い符号長(長さ1)の符号90aは、42セント未満における範囲87のピッチ変化比88aの符号90などである。そして、例えば、長い符号長(長さ6)の符号90bは、42セント以上の範囲86aにおけるピッチ変化比88bの符号90などである。
なお、これに対して、先行例(図19、図13、図14など)においては、42セントより大きい範囲86aのセント数でのピッチ変化比(比88bを参照)が生じること多いことに気づいておらず、つまり、範囲86aのピッチ変化比が生じることが、音質が低い原因であるのに気づいていない。このため、先行例(図19、図13、図14等)から、本技術の構成を導くことは困難と考えられる。
なお、この閾値(上述の説明での「0.0416」)は、例えば、ピッチ変化比の変域の範囲(図18の範囲86、1.0416〜0.9604の範囲)に属する各値のうちで、最も大きい絶対値のセント数での値(1.0416)である。つまり、こうして、閾値が、高い値(例えば、上述の「0.0416」)にされることにより、範囲86が、42未満における範囲87(図19の1.02285〜0.982857を参照)だけでなく、更に、42セント以上の範囲86a(図18の1.0416〜1.0293と、0.9772〜0.9604とでの範囲)も含むようにされて、より広い範囲にされてもよい。
なお、こうして、複数の処理(複数の構成、複数の技術的特徴)が組み合わせられ、組み合わせからの相乗効果が生じる。
なお、組み合わせられる複数の処理は、何れも、この相乗効果のためのパーツ(部品)として利用されるものである点で共通し、単一の技術範囲に属する。
一方で、知られた従来例(例えば、図19、図13、図14などを参照)では、これら複数の処理のうちの一部または全部を欠き、相乗効果は生じない。この点で、本技術は、従来例に対して相違すると考えられる。
なお、この実施形態は、単に、様々な発明ステップの原理を説明するものである。ここに説明する具体例の、様々な変形は、当業者には明らかであろう。
(第1の実施形態)
第1の実施形態において、動的時間伸縮方式を用いる符号化装置を提案する。
図1は、提案のエンコーダ(符号化装置)の例を示す図である。
図1において、左右の信号の1フレームが、ピッチ輪郭分析ブロックであるブロック101に送信される。そして、101(ピッチ輪郭分析ブロック(ピッチ輪郭分析部)101)において、左右のチャネル(2つのチャネル)のピッチ輪郭が、別々に算出される。つまり、それぞれのチャネルのピッチ輪郭が算出される。なお、例えば、先行技術に記載の、ピッチ輪郭検出アルゴリズムを、ここ(ピッチ輪郭分析部101)で用いることができる。
そして、先述された図8に示されるように、1フレームが、M個の重なり合うセグメントに、セグメント化される。1フレーム内で、M個のセクションから、M個のピッチが算出される。
ブロック101で抽出された、左右のチャネルのピッチ輪郭は、動的時間伸縮ブロックであるブロック102に送られる。そして、ブロック102は、各オーディオフレームにおける、ピッチ変化セクション情報(時間伸縮位置)と、それに対応する隣接セクションのピッチ変化比(時間伸縮値)とからなる、抽出されたピッチ輪郭情報に基づいて、ピッチパラメータを生成する。以下、ピッチパラメータを、動的時間伸縮パラメータとも呼ぶ。
この動的時間伸縮パラメータは、可逆符号化ブロックであるブロック103に送られる。可逆符号化ブロックは、さらに、時間伸縮値を圧縮し、符号化時間伸縮パラメータを生成する。なお、ブロック103では、例えば、一般的な可逆符号化技術が用いられる。
その後、生成された符号化時間伸縮パラメータが、マルチプレクサ(マルチプレクサブロック、マルチプレクサ回路)であるブロック106に送られ、ビットストリームが生成される。
動的時間伸縮パラメータは、時間伸縮ブロックであるブロック104に送られる。なお、ブロック104の処理では、例えば、先行技術に記載されている技術が用いられてもよい。ブロック104は、時間伸縮パラメータに従って、入力信号を、再サンプリングする。ステレオ符号化に関し、左右の信号のピッチが、対応する動的時間伸縮パラメータに従って、別々にシフト(時間伸縮)される。
時間伸縮後の信号は、変換エンコーダであるブロック105に送られる。
符号化信号および関連情報もまた、マルチプレクサであるブロック106に送られる。
なお、第1の実施形態における、ブロック101の入力信号は、ステレオ信号である必要はなく、モノラル信号またはマルチ信号であってもよい。動的時間伸縮方式は、あらゆる数のチャネルに適用できる。
(効果)
第1の実施形態において、ピッチ輪郭が、動的時間伸縮方式により処理され、動的時間伸縮パラメータが生成される。そして、生成された動的時間伸縮パラメータは、時間伸縮が適用される位置と、その位置の時間伸縮値とを表す。提案の動的時間伸縮方式により、音質が改善される。時間伸縮値の符号化に用いられるビットを、さらに削減するため、可逆符号化も導入する。
(第2の実施形態)
第2の実施形態において、時間伸縮パラメータを、より効率よく符号化する方式を用いる動的時間伸縮方法を説明する。
課題の欄の記述で説明したとおり、信号の振幅および周期が変化するため、ピッチ検出は、困難な課題である。つまり、ピッチ輪郭情報が、時間伸縮に直接用いられると、ピッチ輪郭の不正確性が、時間伸縮の性能に影響する。信号のハーモニクスは、時間伸縮中のピッチシフトに比例して、修正されるため、ハーモニクスに対する、時間伸縮の影響を考慮する必要がある。
第2の実施形態において説明する時間伸縮方法では、オーディオ信号のハーモニクス構造を分析することで、ピッチ輪郭を修正し、より効率的な、動的時間伸縮パラメータを生成する。これは、3つの部分からなる。
第1に、ハーモニクス構造に従ってピッチ輪郭を修正する。
第2に、時間伸縮の前後のハーモニクス構造を比較することにより、時間伸縮の性能を評価する。
第3に、動的時間伸縮パラメータを効率よく表現する方式を用いる。
先行技術[3]および[4]に記載のようにピッチ輪郭全体を符号化するのではなく、時間伸縮が有効にされている箇所の位置情報のみを符号化し、その位置の時間伸縮値を可逆符号化によって符号化する。
第1に、ピッチ輪郭が修正される。第1の実施形態と同様に、ピッチ算出のため、オーディオフレームが、M個のセクションにセグメント化される。ピッチ輪郭は、M個のピッチ値(pitch1,pitch2,……pitchM)を有する。先行技術[3]および[4]において、ピッチは、参照ピッチ値の近くにシフトされる。時間伸縮の後に、安定した参照ピッチが得られる。
ここで、提案の動的時間伸縮により、信号のハーモニクスを、参照ピッチ値のハーモニクス付近にシフトすることができる。
図17は、ハーモニクスを利用するピッチシフトを説明する図である。
図17に一例を示す。なお、図示されるように、図17においては、破線(3箇所)により、参照ピッチと、それぞれの参照ハーモニクスとの図示がされる。図17において、検出されたピッチは、参照ピッチのハーモニクスに近い。そして、Δf1>Δf2は、次のことを意味する。つまり、Δf1>Δf2は、検出されたピッチを、参照ピッチにシフトするために、より大きな伸縮値(図17のΔf1を参照)が用いられ、検出されたピッチを、参照ピッチのハーモニクスにシフトするために、より小さな伸縮値(図17のΔf2を参照)が用いられることを意味する。
動的時間伸縮の処理は、ピッチ輪郭を修正し、ハーモニクス成分のシフトを可能にする。この修正処理の詳細を、以下に説明する。
提案の動的時間伸縮は、検出されたピッチと、参照ピッチの差分を比較する。
ここで、下記の数2(数式2)におけるpitchrefは、参照ピッチ値を表す。また、pitchiは、セクションiの、検出されたピッチ値を表す。
そして、pitchi>pitchrefであれば、pitchiに、より近いのは、pitchrefか、参照ピッチ値のハーモニクスk×pitchrefの何れであるかを確認する。ここで、kは整数であり、k>1である。
以下の数式2を満たす、kの値が存在する場合には、
値pitch
iは、参照ピッチ値のハーモニクスである、そのkの値における「k×pitch
ref」にシフトされなければならない。検出されたpitch
iは、pitch
i/2に修正される。
他方、pitch
i<pitch
refであれば、pitch
refに、より近いのは、pitch
iか、pitch
refのハーモニクスの何れであるかを確認する。以下を満たすkが存在するならば、
pitch
iのハーモニクスは、参照ピッチにシフトされなければならない。よって、pitch
iは、k×pitch
iに修正される。
第2に、この、修正されたピッチ輪郭に基づき、時間伸縮が適用され、時間伸縮の前後のハーモニクス構造を比較することで、性能が評価される。時間伸縮の前後のハーモニクス成分の和が、第2の実施形態における、性能評価基準として用いられる。
セクションiのピッチ値のハーモニクスは、以下の通り算出される。
ここで、qは、ハーモニクス成分の数である。なお、この実施形態においては、q=3が提案される。そして、S(・)は、信号のスペクトラムを表す。そして、pitchiは、ピッチ輪郭pitch1,pitch2,……pitchMにおいて検出されたピッチ値である。
時間伸縮後に、ハーモニクスの和が算出される。
S’(・)は、時間伸縮後の信号のスペクトラムを表す。
時間伸縮の前には、信号は、pitch1,pitch2,……pitchMのハーモニクスからなる。ハーモニクス比HRは、以下のように、これらのハーモニクス成分の間のエネルギー分布を表すように定義される。
は、ピッチpitch
1,pitch
2,……pitch
Mのハーモニクスの和からなる。
時間伸縮後に、ハーモニクス比HR’が、以下の通り算出される。
H’(pitchref)は、時間伸縮後の参照ピッチのハーモニクスの和である。
は、時間伸縮後のピッチpitch
1,pitch
2,……pitch
Mのハーモニクスの和からなる。
時間伸縮後に、エネルギーが、参照ピッチに制限されることが期待される。他のピッチのエネルギーは低下する。したがって、HR’>HRが期待される。時間伸縮は、HR’>HRの時に効果的であると考えられ、このフレームに、時間伸縮が利用される。
動的時間伸縮の第3の部分では、効率的な方式を用いて、動的時間伸縮パラメータを生成する。フレームにおけるピッチ変化位置は、フレーム内にそれほど多くないことから、ピッチ変化位置と、値Δpiとを別々に符号化するように、効率的な方式を設計することができる。
まず、修正されたピッチ輪郭が、正規化される。次に、隣接する、修正されたピッチの差分が、以下の通り算出される。
先行技術[3]および[4]と異なり、動的時間伸縮は
のベクトル全体を符号化せず、Δp
i≠1である位置を示すために、ベクトルCを用いる。それは、時間伸縮が有効にされている位置を示す。Δp
i≠1である、それらの時間伸縮値Δp
iのみが、可逆符号化技術によって、符号化される。
Δpi=1であれば、C(i)は、1に設定され、そうでなければ、C(i)は、0に設定される。ベクトルCの各要素は、修正されたピッチ輪郭の1セクションに対応する。
図9は、ベクトルCの算出の処理を説明する図である。
ベクトルCの設定内容の一例を、図9に示す。Nは、ピッチが変化し、Δpi≠1であるセクションの数として定義される。
ベクトルCと、Δpi≠1である時間伸縮値Δpiとを符号化するために、動的方式が用いられる。そして、どの方式が選択されたかを示すために、フラグAが生成される。
まず、このフレームに、ピッチ変化点があるかどうかを確認する。N=0であれば、ピッチ変化点がないことを意味する。フラグAが、0に設定され、この場合、フラグAのみが、可逆符号化ブロックであるブロック103に送られる。
1つ以上のピッチ変化点があれば、Δpi≠1である時間伸縮値Δpiと、ベクトルCとがデコーダに送られなければならない。
であれば、ピッチ変化点が多数あることを意味し、この状況では、ベクトルと、Δp
i≠1である時間伸縮値Δp
iとを直接符号化する方が、効率がよい。フラグAが、1に設定され、ベクトルCの符号化に、Mビットを使用する。例えば、ベクトルC=00001111に関し、このベクトルCを表すのに、8ビットが使用される。フラグA、ベクトルC、および、Δp
i≠1であるΔp
iとが、可逆符号化ブロック103に送られる。
一方、N>0かつ
であれば、ピッチ変化点の数が少ないことを意味する。この場合、ピッチ変化点の位置を、直接符号化する方が、効率がよい。フラグAが、2に設定され、ベクトルCにおいて、0に印付けられている位置の符号化に、log
2Mビットを使用する。
例えば、ベクトルC=10111111に関し、ピッチ変化点の位置は、2であり、位置2の符号化に、3ビットが使用される。フラグA、ピッチ変化点の数N、ピッチ変化位置、および、Δpi≠1であるΔpiが、ブロック103に送られる。
先述された通り、Δpiを統計的に分析した後には、値Δpiの発生確率は、一様ではなく、ビットレートの節約に、可逆符号化が用いられてもよい。なお、可逆符号化103(可逆符号化ブロック103)の処理は、算術符号化、または、ハフマン符号化であってもよく、選択されたピッチ比Δpiを符号化する。ここで、Δpi≠1である。
複雑性を低下させる目的で、最初の二つの方式のみを、ブロック102に利用してもよい。
(効果)
動的時間伸縮により、時間伸縮を通して、ハーモニクス構造を再構築することが可能になる。エネルギーが、参照ピッチと、そのハーモニクス成分に制限されることから、符号化効率が、改善される。評価方式により、ピッチ検出の精度への依存が減少し、符号化システムの性能が、改善される。時間伸縮パラメータを符号化する効率的な方式は、ビットレートを減らすことで、音質を改善し、より大きなピッチ変化レートを有する信号の符号化に対応することができる。
(第3の実施形態)
第3の実施形態において、動的時間伸縮方式を用いる復号装置を提案する。
図2は、第3の実施形態のブロック図を示す図である。
デマルチプレクサであるブロック205は、入力ビットストリームを、符号化時間伸縮パラメータ、符号化オーディオ信号、および、関連する変換エンコーダ情報に分割する。
符号化時間伸縮パラメータは、可逆復号ブロックであるブロック201に送られる。このブロックにおいて、動的時間伸縮パラメータが生成される。
動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δpiとからなる。
動的時間伸縮情報は、動的時間伸縮再構築ブロックであるブロック202に送られる。ブロック202は、動的時間伸縮パラメータから、時間伸縮パラメータを復号する。
変換デコーダであるブロック204は、デマルチプレクサブロック205からの変換エンコーダ情報に基づいて、符号化信号を復号する。それは、時間伸縮された信号を復号する。
時間伸縮ブロック203は、時間伸縮された信号を受け取り、入力信号に対して、時間伸縮を適用する。この時間伸縮処理は、第1の実施形態におけるブロック104での処理と同じである。時間伸縮パラメータ、および、オーディオ信号に従って、信号は伸縮されない。
(第4の実施形態)
動的時間伸縮再構築の具体例を、第4の実施形態で説明する。
動的時間伸縮再構築によって受け取られた動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δpiとからなる。
まず、フラグが確認される。フラグが0であれば、対象フレームに、時間伸縮が適用されないことを意味する。この場合、再構築されたピッチ輪郭ベクトルは、全て1に設定される。
フラグが1であれば、時間伸縮が適用される位置を示すベクトルCの符号化に、Mビットが使用されることを意味する。1ビットが、1つの位置に合わせられる。1は、ピッチ変化なしの印として、一方、0は、時間伸縮の印として、印付けられる。ベクトルCにおける0の数を数えることによって、時間伸縮点Nの総数が分かる。その過程で、N回の伸縮値Δpiが、バッファから得られる。Δpiは、時間伸縮値に対応している。ここで、c(i)=0である。
擬似コードは、以下の通りである。
フラグが2であれば、時間伸縮点の数Nが、バッファから読み出される。その後、N個の時間伸縮点が、バッファから読み出される。最後に、時間伸縮点に対応するピッチ比が、バッファから得られる。擬似コードは、以下の通りである。
正規化されたピッチ輪郭は、以下の通りに、再構築される。
ピッチ輪郭は、後に、時間伸縮に用いられる。
(第5の実施形態)
第5の実施形態において、動的時間伸縮方式を用いる、他の符号化装置を提案する。
図3は、提案のエンコーダを示す図である。
図1に示される符号化システムと、図3に示されるエンコーダとの間の違いは、ブロック306および307にある。図3の、可逆復号306の機能は、図2の201と同じである。動的時間伸縮再構築ブロック307は、図2の202と同じである。
図3の、この構成を用いることで、エンコーダは、デコーダと全く同じ時間伸縮パラメータを用いることになる。
第5の実施形態は、エンコーダにおける時間伸縮の精度を高める。
(第6の実施形態)
第6の実施形態において、ミドルサイドステレオモード(MSモード)を組み入れた符号化装置を説明する。
図4は、第6の実施形態の符号化装置の構成を示す図である。
多くの変換コーデックにおいて、例えば、AACコーデック等のステレオオーディオ信号の符号化に、MSモードが、頻繁に用いられる。
MSモードは、周波数領域について、左右のチャネルのサブバンド同士の類似性を検出する。MSステレオモードは、左右のチャネルのサブバンドが類似している時に、有効にされる。そうでなければ、MSモードは有効にされない。
MSモード情報は、多くの変換符号化に利用できることから、動的時間伸縮において、MSモード情報を、ハーモニクス時間伸縮の性能改善のために利用することができる。
先述の図4により、変換コーデックからのMSモード情報を用いる構成が示される。
左右のチャネル信号が、MS演算ブロックである、ブロック401に送られる。MS演算ブロックは、周波数領域について、左右の信号の間の類似性を算出する。これは、一般的な変換符号化における、MS検出と同じである。ブロック401によって、1フラグが生成される。MSモードが、ステレオオーディオ信号の全てのサブバンドに対して有効にされていれば、フラグは、1に設定され、そうでなければ、フラグは、0に設定される。
flag=1であれば、ダウンミックスブロックである、ブロック402において、左右のチャネル信号が、ミドル信号とサイド信号とにダウンミックスされる。ミドル信号は、ピッチ輪郭分析ブロックである、ブロック403に送られる。
そうでなければ、元のステレオ信号がブロック403に送られる。
ピッチ輪郭分析ブロックである、ブロック403は、図1のブロック102と同様に、ピッチ輪郭情報を算出する。ダウンミックスされた信号に対し、1組のピッチ輪郭が生成される。そうでなければ、左右の信号のピッチ輪郭が、別々に生成される。
ブロック404、405、および406、408の説明は、ブロック103、104、および105、196の動作での説明と同じである。
(効果)
第6の実施形態において、動的時間圧縮は、ステレオ符号化に、さらに適するように変更される。ステレオ符号化に関し、左右のチャネルは、異なる特性を持つことがある。この場合、異なるチャネルに対し、異なる時間圧縮パラメータが算出される。左右のチャネルが、類似の特性を有することもある。両チャネルに、同じ時間圧縮パラメータを用いると、合理的である。左右のチャネルが類似している場合、同じ時間圧縮パラメータの組を用いることで、より効率的なオーディオ符号化が、達成できる。
(第7の実施形態)
第7の実施形態において、MSモードに対応する復号装置を説明する。
図5は、第7の実施形態における復号装置のブロック図である。
入力ビットストリームが、デマルチプレクサブロック506に送られる。
ブロック506の出力は、符号化時間圧縮パラメータ、変換エンコーダ情報、および符号化信号である。
変換デコーダであるブロック505は、変換エンコーダ情報に従って、符号化信号を、時間圧縮信号に復号し、MSモード情報を抽出する。
MSモード情報は、MSモード検出ブロック504に送られる。
このフレームの全てのサブバンドに対して、MSモードが有効にされていれば、MSモードは、時間圧縮に対しても、有効にされ、フラグが、1に設定される。そうでなければ、MSモードは、ハーモニクス時間伸縮の再構築に用いられず、フラグは、0に設定される。当該MSモードフラグは、ハーモニクス時間伸縮再構築ブロック502に送られる。
動的時間伸縮パラメータは、可逆復号ブロックであるブロック501から、逆量子化される。
動的時間伸縮再構築ブロック502は、MSフラグに従って、時間伸縮パラメータを再構築する。
M/S flag=1であれば、1組の時間伸縮パラメータが生成され、そうでなければ、動的時間伸縮パラメータから、2組の時間伸縮パラメータが生成される。時間伸縮パラメータの生成プロセスは、第2の実施形態と同じである。
時間伸縮ブロック503において、M/S flag=1であれば、時間伸縮された左信号と、時間伸縮された右信号とに、異なる時間伸縮パラメータが適用される。そうでなければ、時間伸縮されたステレオオーディオ信号に、同じ時間伸縮パラメータが適用される。
(第8の実施形態)
図6は、MSモードを利用する、変更された動的時間伸縮を用いるエンコーダのブロック図である。
図6に示されるように、エンコーダにおける時間伸縮の精度を高めるように、第4の実施形態を変更する。
この変更は、第3の実施形態の変更と同じである。
可逆符号化ブロック608、および、動的時間伸縮再構築ブロック609が、符号化構造に追加される。この目的は、エンコーダが、デコーダと同じ時間伸縮パラメータを用いるようにすることである。ブロック608、および、609の説明は、図5の、ブロック501および502の説明と同じである。
(第9の実施形態)
第9の実施形態において、閉ループ動的時間伸縮手段を備える符号化装置を、導入する。
図7は、第9の実施形態の符号化装置を示す図である。
第9の実施形態の構成は、第8の実施形態の構成に基づくが、比較スキーム(比較スキーム710)が、追加されている。符号化信号、および、時間伸縮パラメータを、図7のマルチプレクサ711に送る前に、比較スキーム710において、符号化信号が確認される。時間伸縮の復号後に、全体の音質が改善されているかどうかが、判断される。
比較スキームには、様々な種類がある。一例は、復号信号のSNRを、元の信号と比較することである。
第1に、時間伸縮された符号化信号が、変換デコーダによって、復号される。図7の708と同じ時間伸縮パラメータを用いて、復号された時間伸縮信号に時間伸縮が適用され、非伸縮信号が生成される。非伸縮信号と元の信号とを比較することによって、SNR1が算出される。
第2に、他の符号化信号が、時間伸縮を適用することなく、生成される。この符号化信号は、同じ変換デコーダによって復号され、復号信号を、元の信号と比較することによって、SNR2が算出される。
第3に、SNR1と、SNR2とを比較することによって、決定がなされる。SNR1>SNR2であれば、時間伸縮が選択され、第1の符号化信号、変換エンコーダ情報、および、符号化時間伸縮パラメータが、デコーダに送られる。そうでなければ、時間伸縮は選択されず、第2の符号化信号、および、変換エンコーダ情報が、デコーダに送信される。
比較スキームの、他の方法として、SNRの代わりに、ビット消費を比較することができる。
要約すれば、次のことが言える。すなわち、時間伸縮技術は、オーディオ符号化システムにおけるピッチ変化の影響を補うために用いられる。そして、時間伸縮の効率を改善するために、動的時間伸縮方式が提案される。本発明の時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することによって、音質を改善する。動的時間伸縮方式は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の有効性を評価し、対象オーディオフレームに、時間伸縮を利用すべきかどうかを決定する。それにより、不正確なピッチ輪郭情報によってもたらされる不正確性を取り除く。動的時間伸縮は、また、時間伸縮パラメータを、より効率的に符号化する方法を提供し、変換符号化から得られるMSモード情報を用いて、音質および符号化効率を改善する。
なお、こうして、符号化装置1および復号装置2(信号処理システム2S、図1、図2、図20、図21など)が構築されてもよい。そして、例えば、ある局面などにおいて、次の動作がされてもよい。上述された処理のうちの一部(または全部)は、以下で説明される動作と同じ(類似する)動作などでもよい。
つまり、符号化装置1において、次の処理がされてもよい。
つまり、音の信号101i(図1、図11の信号811を参照)から、当該信号101iのピッチ(例えば、図15のピッチ822を参照)が、参照ピッチ(先述:例えば、図15の参照ピッチ82r)へとシフトされた信号104x(図1、図11の信号812を参照)が生成されてもよい(時間伸縮部104、図21のステップS104)。
なお、このようにして、シフト先のピッチ(参照ピッチなど)へのシフトがされてもよい。そして、シフト先のピッチは、先述のように、参照ピッチでなく、参照ピッチの倍音(ハーモニクス)などでもよい(数式2などを参照)。
なお、信号101i(信号104x)は、具体的には、例えば、ステレオの2チャンネル、5.1チャンネル、または、7.1チャンネルなどのマルチチャンネルの複数のチャネルなどの、複数のチャンネルのうちの1つのチャンネルにおける信号などでもよい。
そして、さらに具体的には、信号101iは、例えば、複数のセクション(例えば、図16に示される、フレーム84F(図16)に含まれる、M個のセクション84(セクション841〜セクション84M)を参照)の信号のうちの、1つあるいは一部のセクション84における信号などでもよい。
なお、図16のMの値は、具体的には、例えば16などでもよい。
そして、例えば、上述された参照ピッチ(参照ピッチ82r)は、信号101iが符号化されるよりも、当該参照ピッチへとシフトがされた後の信号104xが符号化される方が、より適切な符号化がされるピッチである。
つまり、ここで、適切であるとは、例えば、仮に、シフトがされる前の信号101iが符号化されたと仮定した際における、(音質を維持したままでの、)符号化後のデータ量よりも、シフトがされた後の信号104xが符号化された信号105x(図1)のデータ量の方が小さいことなどをいう。つまり、例えば、小さい方のデータ量は、そのデータ量のデータの音質と同じ音質で、音質が維持された他方のデータのデータ量よりも小さいデータ量などをいう。
つまり、例えば、参照ピッチは、信号101iのセクション(例えば図15のセクション822s)以外の他のセクション(例えば、セクション822sに隣接するセクション821s)でのシフトで、当該他のセクションのピッチ(ピッチ821)がシフトされる先のピッチ(例えば、参照ピッチ82r)と同じピッチ(参照ピッチ82r)などである。
そして、シフトがされた後の信号104x(図1)が、信号105xへと符号化されてもよい(変換エンコーダ105、ステップS105)。
これにより、シフトがされた後の信号104xが、スペクトル的に符号化し易くなり、符号化し易くなった信号を符号化することで、シフトしない信号(第1の信号101i)を符号化することに比べて、同じ音質であれば、符号化に必要なデータ量が少なくできる。
つまり、こうして、シフトがされて、シフトがされる前における第1の信号101iが直接符号化されるのが回避され、シフトがされた後の第2の信号104xが、第1の信号101iが直接符号化された信号のデータ量よりも小さいデータ量の第3の信号105xへと符号化され、第1の信号101iの音の、符号化された信号として、より小さいデータ量の第3の信号105xが用いられる。
一方で、シフトがされる前の信号101iのピッチ(ピッチ822(図15)を参照)を特定するパラメータ102x(先述された動的時間伸縮パラメータ、ピッチパラメータ)が算出されてもよい(ピッチパラメータ生成部102、ステップS102)。
なお、先述のように、例えば、算出されるパラメータ102xは、予め定められた比(図18の比88(Tw_ratio):先述されたピッチ変化比)でもよい。そして、算出された比(比88、パラメータ102x)は、予め定められたピッチ(例えば、図15のピッチ821を参照)から、当該比(図15に示される比83を参照)だけの変化をしたピッチ(ピッチ822)を特定することができる(図15に示される比83を参照)。
なお、さらに具体的には、例えば、比88のデータは、その比88の番号(図Tw_ratio_index)を特定する、番号のデータであり、特定される番号の比を特定することにより、比を間接的に特定してもよい。このような、番号のデータが、パラメータ102xとして算出されてもよい。
なお、図15においては、符号83の矢印線の先端の位置により、符号83で示される比が、ピッチ821と、ピッチ822との間の比であることが模式的に図示される。
そして、算出されるパラメータ102xは、符号化された、音の信号105xが(例えば復号装置2などにより)復号される際に、信号105x(図2の信号204i)が復号された信号(図2の信号203ib(図1の信号104x))から、当該パラメータ102xにより特定されるピッチ(ピッチ822を参照)の信号(図2の信号203x(図1の信号101i))が生成される(逆シフトがされる)パラメータでもよい。
なお、さらに具体的には、当該パラメータ102xが、符号化装置1から、復号をする装置(復号装置2)へと通信されて、通信されたパラメータ102x(図2の信号201iを参照)により、上述の処理がされてもよい。
これにより、復号された後の信号(図2の信号203x)のピッチが、確実に、適切なピッチ(ピッチ822を参照)にできる。
なお、こうして、音のデータ(図1の信号104x、信号105x、図2の信号203ib、信号204i)と共に、ピッチのデータ(ピッチを特定するパラメータ102x)が利用されて、音のデータと、ピッチのデータとの2つのデータが利用されてもよい。
しかしながら、音のデータについて、信号101iから符号化された、信号203ibへと復号される、小さなデータ量の信号(図1の信号105x、図2の信号204i)が利用されて、音のデータのデータ量が小さくされることではなくて、むしろ、他方の、ピッチのデータ(図1のパラメータ102x、図2のパラメータ201i)のデータ量が小さくすることの方が、より強く望まれることも考えられる。
そこで、より具体的には、例えば、算出されたパラメータ102xが、パラメータ102xのデータ量よりも小さいデータ量を有する、符号化後のパラメータ103x(図1、図2のパラメータ201i)へと符号化(可逆符号化(Huffman符号やArithmetic符号化など))されてもよい(可逆符号化103、ステップS103)。
これにより、パラメータ102x(ピッチのデータ)についても、符号化(可逆符号化)を施すことで、パラメータ102x(ピッチのデータ)のデータ量も小さくできる。
しかしながら、算出されるパラメータ102x(図1、図2のパラメータ204i)によって特定できるピッチ(例えば、図15のピッチ822を参照)のセクション(セクション822s)の時刻に隣接する時刻のセクション(直前のセクション821s)のピッチ(ピッチ821)もある。
そこで、算出されるパラメータ102xは、隣接する(セクション(セクション821s)の)ピッチ(ピッチ821)と、そのパラメータ102xのピッチ(ピッチ822)との間の比(比83、図18のTw_ratio)を特定するパラメータでもよく、この比を算出(特定)して、算出された比に対して可逆符号化を行い、この比が不可逆符号化された後のデータを、符号化時間伸縮パラメータとしてもよい(先述の説明を参照)。
つまり、算出されるパラメータ102xは、そのパラメータ102xによって特定される比(図15の比83)だけの変化を、隣接するピッチ(ピッチ821)から有するピッチ(ピッチ822)を特定して、ピッチ(ピッチ822)を、当該比によって間接的に特定してもよい。
しかしながら、発明者は実験を行い、比較的多くの場合においては、0セントの音程の変化の比88x(1.0の比:図18)に対して比較的近い比88a(例えば、比88xそのものなど)は、高い頻度(出現頻度)で生じる一方で、比88xから比較的離れた比88b(例えば、図18に示される、「1.0293」の比など)は、低い頻度で生じることに気付いた。
つまり、比88が生じる(出現する)頻度は、その比88が、0セントの比88xに近いか否かに応じた頻度(0セントの比88xに近いほど高く、離れるほど低い頻度)であることに気付いた。
そこで、算出された比88(パラメータ102x)は、0セントの比88xに対して比較的近い比(比88a:図18)で、比較的高い出現頻度で出現する比88aである場合には、比較的短い符号長(ビット長、長さ)の符号(符号(ビット列)90a(図18)、例えば、長さが1である符号「0」(図18を参照)など)へと符号化されてもよい。
そして、他方で、算出された比88(パラメータ102x)は、0セントの比88xから比較的離れた比(比88b)であり、比較的低い出現頻度で出現する比88bである場合には、比較的長い長さの符号(符号90b、例えば、図18に示される、符号長が6の符号「111110」)へと符号化されてもよい。
つまり、こうして、算出された、それぞれの比88(パラメータ102x:比88a、比88bなど)が、その比88が、0セントの比88xに近いか否か(比88xとの差がどの程度であるか)に応じた出現頻度に対応する符号長の可変長符号90(符号90a、90bなど)へと、可変長符号化されてもよい。
なお、具体的には、例えば、比88(比88a、88bなど)に対して、その比88に対応した適切な可変長符号90(符号90a、90bなど)を対応付けるテーブル103t(テーブルのデータ、テーブル85:図18、図20、図1などを参照)が記憶されてもよい。
なお、このテーブル103tは、具体的には、例えば、可逆符号化部103(第1のピッチ処理部103A:図1、図20等を参照)により記憶されてもよい。
そして、記憶されたテーブル103tにより、算出された比88(比88a、88b:パラメータ102x(図1))が対応付けられた可変長符号90(符号90a、90b:パラメータ103x(図1))へと、その比88が符号化されることにより、可変長符号化が行われてもよい。
これにより、ピッチの、符号化後のパラメータ103x(符号90)のデータ量が、より小さくなり、変換エンコーダで使うことの出来る符号化データ量を間接的に増やすことができ、符号化音質を向上させることができる。
そして、復号装置2(図2等)において、次の処理がされてもよい。
つまり、音の信号203ib(信号104x:図1)が符号化された信号204iが、信号203ib(信号104x)へと復号されてもよい(変換デコーダ204、ステップS204)。なお、変換デコーダの方式は、例えば、MPEG(Moving Picture Experts Group)−AAC(Advanced Audio Coding)などのような直交変換符号化方式であってもいいし、ACELP(Algebraic Code Exited Linear Prediction)などの音声符号化方式であっても良いし、その他の方式などでもよい。
そして、復号される信号204iは、より具体的には、シフトがされる前の、音の信号203x(信号101i)から生成された、当該信号203x(信号101i)におけるピッチ(ピッチ822)が、参照ピッチ(参照ピッチ82r)へとシフトされた後の信号203ib(信号104x)が符号化された信号204i(信号105x)である。
つまり、復号される信号204iは、例えば、上述された符号化装置1により、符号化がされた後における信号105xでもよい。
つまり、さらに具体的には、例えば、復号される信号204iは、符号化をした符号化装置1から復号装置2へと通信されるデータ(図1のストリーム106x、図2のストリーム205i)に含まれ、符号化装置1から復号装置2へと通信される信号でもよい。
そして、信号204iから復号された信号203ibから、復号された当該信号203ibにおける参照ピッチ(参照ピッチ82r)が、シフトがされる前のピッチ(ピッチ822)へとシフト(逆シフト)された信号203xを生成する(時間伸縮部203、ステップS203)。
そして、より具体的には、符号化時間伸縮パラメータ201iを可逆復号化して、動的時間伸縮パラメータ202iを取得する。取得された動的時間伸縮パラメータ202iは、前記TW_Ratio_Indexで表される。そして、取得された動的時間伸縮パラメータ202i、および、TW_Ratio_Indexと、TW_Ratioとの間の関係を表したテーブル103tにより、時間伸縮パラメータTW_Ratioを取得する。取得したTW_Ratioに応じて、信号203ibを、時間伸縮回路(時間伸縮部)203にて、シフトされる前のピッチに相当する非伸縮信号203xへと変換する(逆シフト)。
そして、具体的には、比88(パラメータ202i、パラメータ102x)が符号化されたパラメータ201i(図1のパラメータ103x)が、比88(パラメータ202i、パラメータ102x)へと復号されて、復号された比88(パラメータ202i)により特定されるピッチ(ピッチ822)へのシフトがされてもよい(可逆復号部201、S201)。
これにより、ピッチのデータのデータ量についても、符号化されたデータ(パラメータ201i、パラメータ103x)における、小さなデータ量にされて、ピッチのデータのデータ量も小さくできる。
そして、発明者は、先述のように、比88は、0セントの比88xに近い比88aである場合には、高い頻度で出現し、0セントの比88xから離れた比88bである場合には、低い頻度で出現することに気付いた。
そこで、0セントの比88xに近い比88aへと、比較的短い符号90aが、復号され、0セントの比88xから離れた比88bへと、比較的長い符号90bが復号されてもよい。
つまり、こうして、0セントの比88xに近いか否かに応じた出現頻度に合わせた復号(当該出現頻度に基づいた可変長符号化における復号)がされてもよい。
なお、換言すれば、復号されるパラメータ201iの符号90(図18)は、0セントの比88xに近い比88aの符号90(符号90a)である場合には、短い符号90aであり、0セントの比88xから離れた比88bの符号90(符号90b)である場合には、長い符号90bであってもよい。
つまり、これにより、短い符号90aが、0セントの比88xに近い比88aへと復号され、長い符号90bが、0セントの比88xから離れた比88bへと復号されてもよい。
これにより、より十分に、ピッチのデータのデータ量が小さくできる。
なお、より具体的には、例えば、先述されたテーブル103t(テーブル85:図18)に対応する復号化テーブル201t(図18、図2、図20など:テーブル85)を記憶しておく。
そして、さらに具体的には、例えば、テーブル201tは、可逆復号部201(第2のピッチ処理部201A:図2、図20などを参照)により記憶されてもよい。
そして、記憶されたテーブル201tにより、可変長符号90(符号化されたパラメータ201i)が対応付けられた比88(パラメータ202i)へと復号がされることにより、適切な、復号の処理がされてもよい。
なお、先行例としては、固定長の長さの固定長符号(図19における、3ビットの長さの固定長符号91(符号91a、91b)を参照)により、ピッチのデータ(比88(図18)、図1のパラメータ(パラメータ202(図2等)を参照)が、固定長符号化される技術が知られる。
そして、先述された、図16の説明で述べられたように、例えば、1つのフレーム84Fは、16個のセクション84(セクション841〜84M、M=16)へと分割される。
このため、先行例では、それぞれのフレーム84Fについて通信されるデータ9L(図22の第1行第2列)は、例えば、そのフレーム84Fの16個のセクション84に対応する、16個の固定長符号91(図22の固定長符号91c、91dなど)を含み、3ビット×16個=48ビット(図22の表の第1行第3列を参照)だけの、比較的大きいデータ量を有する。
これに対して、本実施形態の符号化装置1、復号装置2によれば、それぞれのフレーム84Fについて通信されるデータ90L(図22における第2行、第3行)は、図22に示される15個の「1」の文字により示される、15個の、長さ1の符号90cを含む。
そして、本実施形態におけるデータ90Lは、例えば、図22に示される1個の、「6」(データ90Lsでは「4」)の文字により示される、1個の、長さ6(データ90Lsでは長さ4)の符号90d(データ90Lsの符号90ds、データ90Ltの符号90dt)を含む。
このように、本実施形態におけるデータ90Lは、高い頻度(例えば、図22の例では、15/16の頻度)で出現する、短い長さ(例えば、図22における、符号9cにおける長さ1、および、図18の表の符号90a「0」における長さ1などを参照)の符号90c(図18における符号90a)を、多い個数(例えば、図22のデータ90Lの例では15個)だけ含む。
そして、データ90Lは、長い長さ(例えば、図22における長さ6個(データ90Lsでは長さ4)、および、図18の符号90b「111110」における長さ6などを参照)の符号90d(図18の符号90b)を、少ない個数(例えば、図22で例示される1個)だけ含む。
つまり、図示されるように、本システムでのデータ90Lは、例えば、1×15+6×1=21ビット(第3行のデータ90Ls)、または、1×15+4×1=19ビット(第2行)などの、比較的小さいデータ量を有する。
このため、例えば、本システムによれば、それぞれのフレーム84Fの通信等の処理でのデータ90Lのデータ量における、先行例でのデータ91L(図22の第1行)でのデータ量からの減少幅として、48−21=27ビット(第3行のデータ90Lt)、または、48−19=29ビット(第2行のデータ90Ls)などの減少幅が生じることが期待できる。
なお、これらの減少幅(27ビット、29ビットなど)は、単なる、計算によって、理論的に想定される一例である。つまり、上述された、減少のための原理は、これらの減少幅(27ビット、29ビット)と同一または近似する減少幅を得るために利用されてもよいし、比較的小さい減少幅などの、その他の減少幅を得るために利用されるなどしてもよい。
このように、本実施形態によれば、減少がされる、データ量の減少幅が、比較的大きな減少幅(例えば、上述された27ビット、29ビットなど)にできる。
そして、さらに、本システムにおいて、次の動作がされてもよい。
図12により、半音を構成する100セント(1セントは、1オクターブの1200分の1)だけの音程90jが示される。このような半音の音程90jの100分の1だけの音程が、1セントである。なお、この点については、例えば、図12に示される「100c」の文字も、参照されたい。
そして、図18の表における第1列(cent)における、それぞれの行においては、その行の比88だけ互いに離れた2つのピッチ(図15のピッチ821、822を参照)の間の音程が、1セント(cent)の何倍の音程であるかが示され、つまり、その行の比88の音程のセント数が示される。
なお、例えば、図18の表の第3行(符号「111100」の行)においては、1.0293倍の比88(比83(図15)を参照)のセント数が、50セントであることが示される。
そして、範囲861(図18:範囲86aの一部)は、0セントの比88x(図18の第8行)から、42セント以上に大きい比88(1.0293、1.0416)の範囲(比88xより大きく、かつ、比88xからの差の絶対値が、42セント以上である範囲)を示す。
一方で、範囲862(範囲86aの一部)は、−42セント以上に小さい比88(0セントの比88xから、より小さい方へと、42セント以上離れた比88(0.9772、0.9715、0.9604)の範囲(比88xよりも小さく、かつ、比88xからの差の絶対値が、42セント以上であるは範囲)である。
つまり、範囲861と、範囲862とを合わせてなる範囲86aは、0セントの比88x(第8行)からの差の絶対値が、42セント以上であり、比88xから、42セント以上、離れた比88の範囲を示す。
そして、範囲87は、42セント未満だけしか離れてない、比88の範囲である。
なお、この範囲87については、後で、さらに詳しく説明される。
そして、比88a(図15の比83a)は、図18に示されるように、例えば、上述された、42セント未満における範囲87に属する比88であり、比88b(図15の比83b)は、42セント以上である範囲86aに属する比88である。
なお、比83(図15、図18の比88)を作る2つのピッチ(図15のピッチ821、822を参照)の間の差は、その比83が、42セント未満の範囲87での比83a(比88a)であれば、比較的小さい差であり、42セント以上の範囲86aでの比83b(比88b)であれば、比較的大きな差である。
そして、発明者の実験によれば、42セント未満の範囲87の比88aが生じるだけに止まることなく、このような、大きな差の2つのピッチ(ピッチ821、822を参照)が生じて、42セント以上の範囲87での比88aが現れることがあるのがみられた。
なお、ここで、比88aは、例えば、0セントの比88x(Tw_ratio「1」)に対して比較的近い比88a(図18では、比88xそのもの)である。
そして、他方の比88bは、比88xから比較的遠い比88bである。
つまり、先述のように、例えば、比88aに対応する符号90a(符号「0」)の長さ(長さ1)は、比88bに対応する符号90b(「111100」)の長さよりも短い。
そこで、例えば、信号101i(図1)の比88として、範囲87に属する比88aが算出された場合において、算出された比88aに対応する符号90a(図1のパラメータ103x)が生成され(符号化装置1)、生成された符号90aが、比88a(図2のパラメータ202i)へと復号されて(復号装置2)、先述された処理がされてもよい。
つまり、これにより、比88が、範囲87に属する比88aである場合において、先述された処理がされて、シフトが利用され、音のデータ(信号105x(図1)、信号204i(図2)を参照)のデータ量が小さくされてもよい。
そして、さらに、信号101iの比88として、範囲86aに属する比88bが算出された場合においても、比88bに対応する符号90bが生成され、生成された符号90bが、比88bへと復号されて、先述された処理がされ、音のデータ(信号105x(図1)、信号204i(図2)を参照)のデータ量が小さくされてもよい。
これにより、範囲86aの比88bが算出される場合、つまり、2つのピッチ(ピッチ822、821)の間の比83が、42セント以上である場合にも、先述の処理がされて、音のデータのデータ量が小さくされて、より確実に、音のデータのデータ量が小さくできる。
つまり、比83(図15)が、42セント未満の比83aであり、2つのピッチ(図15のピッチ822、821を参照)の間の変化が、小さい変化である場合だけでなく、42セント以上の比83bで、大きい変化である場合にも、音のデータのデータ量が小さくされる。つまり、ピッチの変化(図15のピッチ822、821を参照)が大きいか小さいかに関わらず、音のデータのデータ量が小さくされ、確実に、音のデータのデータ量が小さくできる。
なお、これに対して、先行例(図19)においては、2つのピッチ(ピッチ822、821を参照)の間の比89(図19)が、42セント未満である範囲87に属する比である場合にのみ、データ量が小さくされる処理がされて、確実に、音のデータのデータ量が小さくできない。
このように、本システムでは、確実にデータ量が小さくできて、先行例(図19等)に対して、際立った先進性を有する。
なお、このようにして、本実施形態によれば、適切な処理がされる範囲が、先行例における比較的狭い範囲(範囲87のみからなる範囲)から、その範囲よりもさらに広い範囲(範囲87を含むのに加えて、更に、範囲86aまで含んだ範囲86)にされて、適切な処理がされる範囲が、より広い範囲(範囲87)にできる。
先述された、範囲87は、このような、広げられた範囲の一例である。
つまり、発明者の現時点での知識によれば、先行例で適切な処理がされる範囲(範囲87)は、少なくとも、42セント未満の比(比88等を参照)のみが含まれてなる範囲である。
また、たとえば、次のような局面では、次の動作・構成をしてもよい。つまり、その位置704p(図9)での、2つのピッチ(図15のピッチ822、821を参照)の間の比83p(図9)が、0セントの比90x(図18)(の近傍)ではない位置704p(先述された、ピッチが変化する位置)と、その位置704q(図9)での比83q(図9)は、0セントの比90x(の近傍)である位置704q(先述された、ピッチが変化しない位置)がある局面(符号化フレーム)がある。そして、構築される符号化装置は、例えば、この符号化フレームにおいて、ピッチ変動のある箇所(図9の704p)と、ピッチ変動の無い箇所(図9の704q)のそれぞれの場所を記憶(図9のベクトルC、102m)して、その場所情報(ベクトルC、102m)、および、ピッチ変動点(704p)におけるTW_RatioまたはTW_Ratio_Indexの情報を、復号化装置へと送信する符号化装置であっても良い。そうすることで、ピッチ変動箇所のみのTW_Ratio(またはTW_Ratio_Index)を送信するだけですむため、必要最小限の通信データ量(符号化量)によって、符号化・復号化装置を構成することもできる。
こうして、ピッチが変化する位置704pと、変化しない位置704qとを含む複数の位置704xがある場合、位置704xは、多くの場合においては、ピッチが変化しない位置704qであり、変化する位置704pであることは少ない(僅かである)ことに気付く(先述)。
そこで、パラメータ102x(図1、図2のパラメータ202i)は、例えば、変化する位置704pを特定するデータ102m(図9等)と、データ102mにより特定される、変化する位置704pでの比83p(を特定するデータ)とを含んでもよい。
そして、パラメータ102xは、含まれるデータ102mにより特定する位置704pの比(比83p)を、当該パラメータ102xに含まれる(データ(上述)により特定される)比83pと特定してもよい。
そして、他方で、パラメータ102xは、含まれるデータ102mにより特定される位置704p以外の他の位置(ピッチが変化しない位置704q)での比(比83q)を、例えば、0セントの比90x(図18)などの、ピッチが変化しない位置704qにおける比83qと特定してもよい。
これにより、それぞれの位置(位置704p、704q)における比(比83p、83q)が何れも特定されるにも関わらず、パラメータ102xは、変化する位置704pの比83pのデータのみを含み、変化しない位置704qのデータを含まず、多くの位置(変化しない位置704q)のデータは含まず、ピッチのデータ(図1のパラメータ102x、103x、図2の204i、203いb)のデータ量が、さらに十分に少なくできる。
なお、こうして、復号装置2へと入力される、信号204i(ストリーム205i)のピッチ(ピッチ822、ピッチ822の比88)を符号化する符号(可変長符号90、データ90L(図20、図22))のフォーマット(図18のテーブル85)が開示される。
開示されるフォーマットにおいて、0セントの比88xに比較的近い比88aの符号(可変長符号90、符号90a)は、より短い長さ(長さ1)の符号90a(「0」)である一方で、0セントの比88xから遠い比88bの符号(可変長符号90、符号90b)は、より長い長さ(長さ6)の符号90b(「111100」)である。
そして、入力された、このフォーマットの符号(可変長符号90、データ90L)に対して、復号装置2により行われる処理(手続)S2(図21)が開示される。
このような、フォーマット(図18)および手続(処理S2)により、先述のようにして、ピッチのデータ(パラメータ103x、203x)のデータ量が、例えば、図22における、第1行第3列の48ビットから、第2行第3列の21ビット(第3行第3列の19ビット)への減少幅などだけ小さくされて、ピッチのデータのデータ量が、より小さくできる。
そして、例えば、このような、フォーマットおよび手続が記載された規格書による規格が定められて、本技術がより広く利用されてもよい。
これにより、より広い場面において、ピッチのデータ量が、より小さくされるようにされて、より大きく、産業の発達に寄与できる。
こうして、本技術によれば、複数の構成(可逆符号化部103など)が組み合わせられて、組み合わせからの相乗効果が生じる。これに対して、知られる従来例(図13、図14、図19、および、その他の技術など)においては、これら複数の構成のうちの一部または全部を欠き、本技術における相乗効果が生じない。
この点で、本技術は、従来例に対して先進性を有すると考えられる。
なお、符号化装置1の一部(または全部)は、当該符号化装置1の1以上の機能が実装された集積回路(例えば、図20の集積回路1Cを参照)でもよい。また、当該符号化装置1の1以上の機能を、当該符号化装置1の一部(または全部)であるコンピュータに実行させるためのコンピュータプログラム(プログラム1Pを参照)が構築されてもよい。
同様に、復号装置2の機能が実装された集積回路(集積回路2Cを参照)、コンピュータプログラム(プログラム2Pを参照)などが構築されてもよい。
また、このコンピュータプログラムが記憶された記憶媒体が構築されてもよいし、このコンピュータプログラムのデータのデータ構造などが構築されてもよい。
また、互いに異なる複数の実施形態での記載などの、互いに離れた箇所の複数の記載で示される複数の技術事項が、適宜組み合わせられてもよい。それらの複数の記載により、組み合わせられた形態も開示される。
また、単なる細部については、如何なる形態が採られてもよく、例えば、更なる改良発明が加えられた形態が採られてもよいし、単なる、実際の実施に際して、当業者が容易に思い付く形態などが採られてもよい。
なお、図21における、複数のステップ(ステップS101およびS104など)が実行される順序は、適切な動作が可能である範囲内の、如何なる順序でもよい。例えば、ステップS101の順序は、ステップS104の順序よりも先でもよいし、後でもよいし、並列に実行されるなどして、同じ順序でもよい。
なお、処理により扱われる範囲としては、様々な範囲が考えられる。そして、本技術では、このような様々な範囲のうちから、上述された、ピッチ変化比(図18の比88、図19の比89)の変域の範囲(範囲86、87)が、より狭い範囲(先行例での範囲87)から、より広い範囲(範囲86)へと広げられる範囲として選択される。このような、本技術によってされた、範囲の選択に想い到ることは容易でないと考えられる。
なお、こうして、例えば、以下の各装置等が実施されてもよい。
つまり、当該復号装置(復号装置2)により受信される前記ビットストリーム(ビットストリーム106x、205i)は、1つのフレーム(フレーム84F:図16)における複数の位置(セクション841〜84M)のうちで、当該ピッチ変化位置(位置704p)における信号のみが前記オーディオ信号リコンストラクタ(時間伸縮ブロック(時間伸縮部)203)によりTimeWarpされ(時間伸縮の処理がされ)、他の位置の信号はTimeWarpされない(時間伸縮の処理がされない)ピッチ変化位置(位置704p)を特定する位置情報(例えば、図9のデータ102m)を含む復号装置が構築されてもよい。
そして、前記ピッチパラメータジェネレータ(動的時間伸縮ブロック102)は、検出された前記ピッチ輪郭情報(情報101x)に基づいて、ピッチ変化位置(位置704p(図9)、データ102mを参照)と前記ピッチ変化比(比83pを参照)とを含む前記ピッチパラメータ(パラメータ102x:例えば、ピッチ変化位置を特定する第1のピッチパラメータ102xと、ピッチ変化比を特定する第2のピッチパラメータ102xとの2つのピッチパラメータ102xなど)を生成する符号化装置が構築されてもよい。
つまり、例えば、複数の位置のうちで、ピッチ変化位置におけるピッチ変化比のデータのみが処理され、他の位置のピッチ変化比のデータが処理されなくてもよい。
そして、先述されたように、例えば、ピッチ変化位置の個数は僅かであり(少なく)、他の位置の個数は多い。
このため、少ない個数の位置(ビット変化位置)のデータの処理のみで済み、処理がされるデータのデータ量が少なくできる。
なお、ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック307:図3)等が更に設けられた符号化装置(符号化装置1e:図3)などが構築されてもよい。
つまり、前記第1のエンコーダ(可逆符号化部303:図3(可逆符号化部103:図1))から出力された前記符号化ピッチパラメータ(パラメータ303x:図3(パラメータ103x))から、復号ピッチ変化位置(位置704p(図9)を参照)と復号ピッチ変化比(比83pを参照)とを含む復号ピッチパラメータ(パラメータ306x)を生成する第1のデコーダ(可逆復号ブロック306)と、生成された前記復号ピッチパラメータ(パラメータ306x)に従って、ピッチ輪郭情報(情報307x(情報301xを参照))を復元するピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック307)とを備え、前記ピッチシフタ(時間伸縮ブロック304)は、復元された前記ピッチ輪郭情報(情報307x)である再構築ピッチ輪郭情報(情報307x)に従って、前記入力オーディオ信号(信号301i)のピッチ周波数(ピッチ822:図15)をシフトする符号化装置(符号化装置1e、ピッチ輪郭分析部301〜マルチプレクサ回路308)が構築されてもよい。
つまり、こうして、例えば、シフトで利用される情報として、復元された情報307xが利用されることにより、復号装置2で利用される、当該復号装置2で復元される情報と同じ情報が利用されて、より適切な(精度のよい)情報が利用できてもよい。
また、入力ステレオオーディオ信号(信号401i:図4)の各オーディオフレームにミドルサイドステレオモード(MSステレオモード)を適用するかどうかを確認して、前記MSステレオモードの適用を示すフラグ(フラグ401x)を生成するMSモードセレクタ(MS演算ブロック(MS演算部)401)と、生成された前記フラグ(フラグ401x)に従って、前記入力ステレオオーディオ信号(信号401i)をダウンミックスするダウンミキサ(ダウンミックスブロック402)とを備え、前記ピッチディテクタ(ピッチ輪郭分析ブロック403)は、生成された前記フラグ(フラグ401x)に従って、前記入力ステレオオーディオ信号(信号401i)がダウンミックスされたダウンミックス信号(信号402a)、または、前記入力ステレオオーディオ信号(信号402b)のピッチ輪郭情報(情報403x)を検出し、前記ピッチシフタ(時間伸縮ブロック406)は、前記ピッチ輪郭情報(情報403x)と前記フラグ(フラグ401x)とに従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号(信号402x(信号402aまたは402b))のピッチ周波数(ピッチ822(図15)を参照)をシフトする符号化装置(符号化装置1f、MS演算部401〜マルチプレクサ回路408)が構築されてもよい。
つまり、こうして、例えば、フラグが生成されて、生成されたフラグに従った処理がされてもよい。
これにより、MSステレオモードが利用される場合と、利用されない場合とがあるにも関わらず、利用されるか否かを示す、ユーザによる操作などがされなくても、生成されたフラグに応じた処理がされるだけで、適切な処理がされる。これにより、余計な操作が不要にされて、操作が簡単にできる。
また、入力ステレオオーディオ信号(信号601i:図6)に従って、MSステレオモードを選択し、前記MSステレオモードの適用を示すフラグ(フラグ601x)を生成するMSモードセレクタ(MS演算ブロック601)と、生成された前記フラグ(フラグ601x)に従って前記入力ステレオオーディオ信号(信号601i)をダウンミックスするダウンミキサ(ダウンミックスブロック602)と、第1のデコーダ(可逆復号ブロック608)と、ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック609)とを備え、前記ピッチディテクタ(ピッチ輪郭分析ブロック603)は、生成された前記フラグ(フラグ601x)に従って、前記入力ステレオオーディオ信号(信号601i)がダウンミックスされたダウンミックス信号(信号602a)または前記入力ステレオオーディオ信号(信号602b)のピッチ輪郭情報(情報603x)を検出し、前記第1のデコーダ(可逆復号ブロック608)は、前記第1のエンコーダ(可逆符号化ブロック605)から出力された前記符号化ピッチパラメータ(パラメータ605x)から、復号ピッチ変化位置(位置704p(図8)を参照)と復号ピッチ変化比(比83pを参照)とを含む復号ピッチパラメータ(パラメータ608x)を生成し、前記ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック609)は、生成された前記復号ピッチパラメータ(パラメータ608x)と、前記フラグ(フラグ601x)に従って、再構築ピッチ輪郭情報(情報609x(情報603xを参照))を復元し、前記ピッチシフタ(時間伸縮ブロック606)は、復元された前記再構築ピッチ輪郭情報(情報609x)に従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号(信号602x(信号602aまたは602b))のピッチ周波数をシフトする符号化装置(符号化装置1h、MS演算部601〜マルチプレクサ回路408)が構築されてもよい。
これにより、復号装置2で利用される情報と同じ情報が利用されて、より適切な情報が利用できることと、操作が簡単にできることとが両立できる。
また、前記ピッチシフタ(図7の時間伸縮ブロック708)を使用するかどうかを決定する比較手段(比較部、比較スキーム710)を備え、前記マルチプレクサは(マルチプレクサブロック711)、符号化データ(信号709x)と、前記比較手段から出力された符号化ピッチパラメータ(パラメータ710x)とを組み合わせることでビットストリーム(ストリーム711x)を生成する符号化装置(符号化装置1i、MS演算部701〜マルチプレクサ回路711)が構築されてもよい。
つまり、例えば、比較スキーム710により、生成される第3の信号709x(第3の信号105x(図1))と、他の信号とのうちで、より適切な方の信号(例えば、SNR(Signal to Noise Ratio:シグナルノイズレシオ、S/N比)が、より高く、ノイズがより少ない方の信号、または、データ量が、より少ない方の信号など)が、復号装置(復号装置2など)により利用される信号として選択されてもよい。
なお、他の信号は、例えば、第3の信号709xにより記録される音と同じ音が記録された、当該第3の信号709x以外の他の信号などでもよい。
つまり、より具体的には、第3の信号709xでのSNR(Signal to Noise Ratio:シグナルノイズレシオ)と、他の信号でのSNRとがそれぞれ算出されて、算出された2つのSNRに基づいて、上記の選択がされてもよい。
なお、算出されるSNRは、例えば、シフトがされる前の信号(図1の信号101iなどを参照)に対して、そのSNRの信号(第3の信号709x、他の信号)が有する差が、そのSNRの信号が有するノイズとされた際の値などでもよい。
これにより、第3の信号709xの方が適切でないときがあるにも関わらず、そのときには、他の信号が利用され、適切な信号が用いられることが維持されて、より確実に、適切な信号が利用できる。
また、符号化装置(符号化装置1)に設けられる前記ピッチパラメータジェネレータ(例えば、図1の動的時間伸縮ブロック102)であって、ピッチシフトがされる前の第1のハーモニクス構造と、された後の第2のハーモニクス構造とを比較することで、前記ピッチ輪郭(情報101x)を修正し、当該ピッチシフトを利用すべきかどうかを決定するピッチパラメータジェネレータ(動的時間伸縮ブロック102)が構築されてもよい。
なお、例えば、第1のピッチ輪郭が修正されないことにより、当該第1のピッチ輪郭でのピッチシフトを利用することが決定されると共に、当該第1のピッチ輪郭が、第2のピッチ輪郭へと修正されることにより、当該第2のピッチ輪郭でのピッチシフトを利用することが決定されてもよい。
そして、ハーモニクス構造(のデータ)は、例えば、それぞれの値が、信号の1以上のハーモニクスのうちの、その値に対応するハーモニクスの振幅を示す値である複数の値が含まれてなるデータなどでもよい。
そして、ピッチシフトがされる前の信号のハーモニクス構造と、された後の信号のハーモニクス構造とから、された後の信号の質を示す評価値が算出されてもよい。
そして、第1のピッチ輪郭のピッチシフトについて算出される評価値により示される質が、第2のピッチ輪郭のピッチシフトについて算出される評価値により示される質よりも、高い質である場合に、第1のピッチ輪郭が修正されないことが決定されると共に、より低い質である場合(以下である場合)には、修正されることが決定されてもよい。
これにより、第1のピッチ輪郭での質が、高い質でないときがあるにも関わらず、そのときには、第2のピッチ輪郭での処理がされて、ピッチシフトがされた後の信号の質が、高い質に維持され、確実に、信号の質が高くできる。
他方、実施形態の復号装置に関して、前記第1のデコーダ(可逆復号ブロック201:図2)は、分離された前記符号化ピッチパラメータ情報(パラメータ201i)から、ピッチ変化位置(位置704p(図9)を参照)と前記ピッチ変化比(比83pを参照)とを含む前記復号ピッチパラメータ(パラメータ202i:例えば、ピッチ変化位置を特定する第1のパラメータ202iと、ピッチ変化比を特定する第2のパラメータ202iとの2つのパラメータ202i)を生成する復号装置(復号装置2c)が構築されてもよい。
そして、当該復号装置(図5の復号装置2g)は、ピッチシフトされたステレオオーディオ信号(信号503ibL等:図5)の前記符号化データ(信号505i:図5)を含む前記ビットストリーム(ストリーム506i)を復号し、MSモードディテクタ(MSモード検出ブロック504)を備え、前記第2のデコーダ(変換デコーダブロック505)は、分離された前記符号化データ(信号505i)を復号して、ピッチシフトされた前記オーディオ信号(信号503ibL等)と、MSモード符号化情報(情報504i)とを生成し、前記MSモードディテクタ(MSモード検出ブロック504)は、MSモードが有効にされているかどうかを、生成された前記MSモード符号化情報(情報504i)に従って検出し、MSモードが有効にされるべきかどうかを示すMSモードフラグ(フラグ504F:図5)を生成し、前記ピッチ輪郭リコンストラクタ(動的時間伸縮再構築部502)は、前記第1のデコーダ(可逆復号ブロック501)から出力された、生成された前記復号ピッチパラメータ(パラメータ502i)と、生成された前記MSモードフラグ(フラグ504F)とに従って、ピッチ輪郭情報(情報503ia)を復元する復号装置(復号装置1g、可逆復号部501〜マルチプレクサ回路506)が構築されてもよい。
これにより、MSモードが有効にされているどうかが検出され、有効にされているかどうかを示す、ユーザによる余計な操作がされなくても済んで、操作が、より簡単にできる。
なお、例えば、ブロックとは、いわゆる機能ブロックなどをいう。
符号化装置1および復号装置2において、上述の各効果が生じ、これら符号化装置1等における動作が、より適切な動作にできる。
これにより、ひいては、これら符号化装置1等の生産、使用などをする産業分野において、産業の発達に貢献できる。
1 符号化装置
2 復号装置
2S システム
101 ピッチ輪郭分析部
102 動的時間伸縮部
103 可逆符号化部
104 時間伸縮部
105 変換エンコーダ
106 マルチプレクサ
201 可逆復号部
202 動的時間伸縮再構築部
203 時間伸縮部
204 変換デコーダ
205 デマルチプレクサ
本発明は、概して、変換オーディオ符号化システムに関し、特に、時間伸縮技術を用いて、入力オーディオ信号のピッチ周波数をシフトすることで、符号化効率および音質を向上させる変換オーディオ符号化システムに関する。なお、当該オーディオ符号化システムは、オーディオだけでなく、スピーチ信号にも適用でき、携帯電話や電話・テレビ会議にも、使用できる。
変換符号化技術は、オーディオ信号を、効率的に符号化するように設計されている。人間の発話では、信号の基本的周波数が、時々変化する。これにより、スピーチ信号のエネルギーは、広範な周波数帯域に拡散する。そして、特に、低ビットレートにおいては、ピッチが変化するスピーチ信号を、変換コーデックによって、符号化することは、効率的ではない。なお、例えば、時間伸縮技術は、先行技術[3]、[4]において、ピッチ変化の影響を補うために用いられている。
図10は、基本的周波数をシフトするという概念の例を示す図である。
時間伸縮技術は、ピッチシフトを実現するために用いられる。図10の(a)欄のスペクトラムは、元のスペクトラムであり、図10の(b)欄のスペクトラムは、ピッチシフト後のスペクトラムである。
図10の(b)欄では、基本的周波数が、200Hzから100Hzにシフトされている。こうして、次フレームのピッチを、先行フレームのピッチに合わせるようにシフトすることで、ピッチが安定する。
図11は、ピッチシフト後のスペクトラムを示す図である。
したがって、信号エネルギーが、図11に示すように集中する。
図11の(a)欄の信号は、スイープ信号である。そして、図11の(b)欄の信号は、ピッチシフト後の信号であり、(b)欄でのピッチは、一定になる。
一方、図11の(c)欄の2つのスペクトラムは、信号(a)および信号(b)のスペクトラムである。図11の(c)欄において、信号(b)のエネルギーは、狭帯域に制限されるのが示される。
ここで、上述のようなピッチシフトは、再サンプリング方法を用いて達成される。安定したピッチを維持するために、再サンプリングレートが、ピッチ変化レートに従って変化する。そして、ピッチトラッキングアルゴリズムを適用することで、入力フレームのピッチ輪郭が得られる。
図8は、1オーディオフレームのセグメント化を説明する図である。
図8に示されるように、フレームは、ピッチトラッキングのため、小さなセクションにセグメント化される。なお、ここで、隣接セクションは、重なっていてもよい。つまり、例えば、少なくとも1つの組み合わせにおいては、その組み合わせの、互いに隣接する2つのセクションのうちの一方のセクション(の一部)が、他方のセクション(の一部)に重なってもよい。
そして、従来例としては、現在のところ、自己相関に基づくピッチトラッキングアルゴリズム[1]、および、周波数領域に基づくピッチ検出方法[2]がある。
各セクションは、そのセクションに対応するピッチ値を有する。
図15は、ピッチ輪郭の算出の処理を示す図である。
図15の(a)欄の信号は、時変ピッチを有する信号である。信号の1セクションから、1つのピッチ値が算出される。ピッチ輪郭は、ピッチ値の連鎖である。
時間伸縮の間、再サンプリングレートは、ピッチ変化レートに比例している。
ピッチ変化情報は、ピッチ輪郭から抽出される。
なお、このピッチ変化レートの測定には、セントおよび半音が頻繁に用いられる。
図12は、セントおよび半音の長さを示す図である。セントは、隣接ピッチのピッチ比から算出される。
ピッチ変化レートに従って、再サンプリングが、時間領域信号に適用される。他のセクションのピッチが、参照ピッチにシフトされ、安定したピッチを得る。例えば、次のセクションのピッチが、先行ピッチよりも高ければ、再サンプリングレートは、それらの2ピッチの間の、セントの差分に比例して、より低く設定される。そうでなければ、サンプリングレートは、より高くなければならない。
なお、ここで、音声再生速度を調整可能な記録再生装置があるとして、高音の音の再生速度を下げることで、音域が、低周波数にシフトされる。これは、ピッチ変化レートに比例して、信号を再サンプリングする概念に似ている。
図13および図14は、時間伸縮方式を組み入れた符号化システムを示す。
図13は、エンコーダ(エンコーダ13A)における時間伸縮のブロック図である。
図14は、デコーダ(デコーダ14A)における時間伸縮のブロック図である。
変換符号化の前に、時間領域信号が時間伸縮される。デコーダにおける逆時間伸縮において、ピッチ情報が必要である。よって、ピッチ比は、エンコーダで符号化されなければならない。
そして、先行技術において、これらのピッチ比情報の符号化に、小さな固定テーブルが用いられている。ピッチ比の符号化には、小さなビットが用いられる。しかしながら、信号のピッチ変化レートが大きいときに、小さなテーブルでは、限界があり、時間伸縮の性能は落ちる。
しかしながら、大きなテーブルが用いられる際には、より多くのビットを使用し、変換符号化のために、十分なビットが残らないために、音質も落ちる。現在のところ、固定テーブルを用いた時間伸縮の効果は限られている。
なお、上述された処理(符号化など)は、後で詳しく説明されるように、例えば、将来定められることが想定される、ISO(International Organization for Standardization)等の規格における処理と同じ処理である。
[4] 米国特許出願公開第2008/0004869(A1)号明細書(Juergen Herre, “Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic”)
時間伸縮を用いる動機は、1フレーム内のピッチを安定させ、符号化効率の改善を達成することである。時間伸縮は、ある程度、ピッチトラッキングの精度に依存する。
しかしながら、ピッチ輪郭検出の課題は、信号の振幅および軌道の変化により、困難が生じることがあることである。つまり、平滑化や、微調整閾値パラメータのような、ポスト処理方式が、ピッチ検出精度の改善のために、いくつか導入されているが、それらの方式は、特定のデータベースに基づいている。
時間伸縮が、不正確なピッチ輪郭に基づいて適用されれば、音質が落ち、時間伸縮情報の送信に用いられたビットが無駄になる。したがって、検出されたピッチ輪郭を、無分別に指針としないような時間伸縮を設計する必要がある。
現在のところ、先行技術の時間伸縮における、従来より利用可能な技術としては、ピッチ輪郭情報を符号化する効率的な方法を欠いている。
ここで、先行技術において、ピッチ輪郭を表現するためには、固定テーブルが用いられている。
そして、小さなテーブルは、ピッチが大きく変化する状況には、不十分であるが、より大きなテーブルは、より大きなビットの使用を必要とする。これにより、特に、低ビットレートの符号化において、コスト高となる可能性がある。これは、時間伸縮パラメータの送信に、ビットを使用することで、符号化効率を改善することの代償である。
したがって、時間伸縮パラメータを、より効率的に符号化する方法があれば、節約したビットを、変換符号化に用いることができることから、音質を向上させることができ、かつ、ピッチ変化の大きい信号に対応することができる。
時間伸縮方式を、変換符号化システムに取り入れる簡易な方法は、時間伸縮方式を、直接的に、変換符号化に連結させることである。先行技術において、時間伸縮方式は、変換符号化から独立している。時間伸縮の目的は、変換符号化の効率の向上であることから、変換符号化システムから、何らかの符号化情報を用いることは、時間伸縮の役に立つ。現在の時間伸縮を用いた変換符号化構造は、改善の必要がある。
また、他の目的は、ピッチ変化比(図18の比88を参照)の変域が、適切な変域(範囲86を参照)にできる符号化装置、復号装置等を提供することを含む。また、他の目的は、適切な処理が、より広い範囲の変域のピッチ変化比(図18の比88を参照)のときに行われて、音質が高くできる符号化装置等を提供することを含む。また、他の目的は、ピッチ(図16のピッチ822、比83、図18の比88等を参照)が符号化された符号(図18の符号90を参照)のデータ(図22のデータ90Lを参照)のデータ量(例えば平均量など)が小さくできる符号化装置等を提供することを含む。そして、ひいては、他の目的は、将来定められる、ISO等の規格における処理を行い、かつ、比較的適切に処理をする符号化装置等を提供することを含む。
本発明の符号化装置は、入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタと、検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比(図18のTw_ratioを参照)の変域(範囲86を参照)は、当該範囲(範囲86a参照)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio、Tw_ratio_index:図18)を含むピッチパラメータを生成するピッチパラメータジェネレータと、生成された前記ピッチパラメータを符号化する第1のエンコーダと、前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタと、前記ピッチシフタから出力された、シフトがされたオーディオ信号を符号化する第2のエンコーダと、前記第1のエンコーダから出力された符号化ピッチパラメータと、前記第2のエンコーダから出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサとを備える符号化装置である。
つまり、具体的には、前記第1のエンコーダは、前記ピッチパラメータ(図18の比88を参照)を、当該ピッチパラメータが、比較的小さな絶対値のセント数(図18のcentを参照)のピッチ変化比のピッチパラメータ(比88aを参照)である場合には、比較的短い符号長の符号の符号化ピッチパラメータ(符号90aを参照)へと符号化し、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータ(比88bを参照)である場合には、比較的長い符号長の符号の符号化ピッチパラメータ(符号90bを参照)へと符号化する符号化装置が構築される。
本発明の復号装置は、ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する復号装置であって、復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサと、分離された前記符号化ピッチパラメータ情報から、当該ビット変化比(図18のTw_ratioを参照)の変域(範囲86を参照)は、当該範囲(範囲86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio、Tw_ratio_index:図18)を含む復号ピッチパラメータを生成する第1のデコーダと、生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタと、分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第2のデコーダと、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタとを備える復号装置である。
つまり、具体的には、前記第1のデコーダは、分離された前記符号化ピッチパラメータ情報を、当該符号化ピッチパラメータ情報が、比較的短い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的小さな絶対値のセント数のピッチ変化比のピッチパラメータへと復号し、比較的長い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータへと復号する復号装置が構築される。
こうして、例えば、符号化装置と、復号装置とを含んでなる、次のような信号処理システムが構築されてもよい(実施形態の冒頭の説明等を併せて参照されたい)。
つまり、当該信号処理システムにおいて、前記符号化装置は、前記ピッチシフタが、第1の信号から、当該第1の信号のピッチが、予め定められたピッチへとシフトされた第2の信号を生成し、前記第2のエンコーダが、生成された前記第2の信号を、第3の信号へと符号化し、前記ピッチパラメータジェネレータが、シフトがされる前の前記第1の信号の前記ピッチを特定するピッチ変化比を算出し、前記第1のエンコーダが、算出された当該ピッチ変化比を符号へと符号化する符号化装置である。
そして、前記復号装置は、前記第2のデコーダが、前記第1の信号から生成された、当該第1の信号の前記ピッチが前記予め定められたピッチへとシフトされた前記第2の信号が符号化された前記第3の信号を、前記第2の信号へと復号し、前記オーディオ信号リコンストラクタが、復号された前記第2の信号から前記第1の信号を生成し、前記第1のデコーダが、前記符号を、前記ピッチ変化比へと復号し、前記ピッチ輪郭リコンストラクタが、復号された前記ピッチ変化比により特定される、当該ピッチの前記第1の信号が生成される前記ピッチを算出する復号装置である。
そして、前記ピッチ変化比が符号化された、当該ピッチ変化比へと復号される前記符号は、当該符号に対応する前記ピッチ変化比が、0セントの音程の差の2つのピッチの間のピッチ変化比に対して、比較的小さな差を有する第1のピッチ変化比である場合には、比較的短い符号長の第1の符号であり、比較的大きな差を有する第2のピッチ変化比である場合には、比較的長い符号長の第2の符号である。
そして、シフトがされた前記第2の信号が符号化された前記第3の信号が、前記符号化装置で生成され、前記復号装置で復号される動作は、シフトがされる前の前記第1の信号の前記ピッチの前記ピッチ変化比が、0セントの前記ピッチ変化比に対して有する差が、閾値以下の場合にのみ行われ、前記閾値よりも大きい場合には行われず、当該閾値は、42セント未満の音程での値ではなく、42セント以上に大きな音程での値である。
すなわち、上述の説明の課題で述べた通り、ピッチ輪郭が不正確であると、時間伸縮後の音質の低下につながる可能性がある。
そこで、この課題を克服するために、動的時間伸縮方式を提案する。それは、ハーモニクス構造も考慮した時間伸縮方式である。
時間伸縮の間、ピッチシフトと共に、ハーモニクスが修正されるので、時間伸縮の間の信号のハーモニクス構造を考慮する必要がある。
そこで、提案のハーモニクス時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することにより、音質を改善する。
提案の動的時間伸縮は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の効率を評価し、対象フレームに、時間伸縮を利用するかどうかを決定する。それは、不正確なピッチ輪郭によってもたらされる不正確性を取り除く。
先行技術において、ピッチ輪郭情報は、圧縮されずに、直接、デコーダに送られる。動的時間伸縮において、時間伸縮パラメータを、より効率的に符号化する方法を提案する。時間伸縮のために、ピッチ輪郭を統計的に分析した後に、信号フレーム内で、ピッチが変化する僅かな位置においてのみ、時間伸縮が有効にされていることが分かる。
したがって、時間伸縮が適用されている部分でのみ情報を符号化すると、より効率的である。
また、ピッチ変化値の発生する確率が一様でないことから、時間伸縮パラメータの符号化に、可逆符号化を用いることで、ビットを節約できる。
提案の動的時間伸縮では、時間伸縮が適用される位置の情報と、その位置の時間伸縮値とを用いる。先行技術に記載のように、固定テーブルを用いて、ピッチ輪郭全体を符号化することで、ビットが節約される。
提案の動的時間伸縮は、また、広範囲の時間伸縮値に対応する。なお、対応するとは、適切な動作ができることなどを意味する。節約されたビットが、変換符号化に用いられ、かつ、広範囲の時間伸縮値により、音質が改善される。
一方、多くの変換符号化システムにおいて、ステレオオーディオ信号の符号化に、MSステレオモード(Mid Side Stereo Mode)を使用している。変換符号化システムからのMSモード情報を使用することで、時間伸縮の性能を改善する、新たな構造を提案する。左右のチャネルが、互いに類似した特性を有するとき、左右の信号に、同じ時間伸縮パラメータを使用すると、より効率的である。左右のチャネルが大きく異なるときには、時間伸縮を共用すると、符号化効率が下がる場合がある。よって、提案の変換符号化構造における時間伸縮に、MSモードを導入する。
なお、例えば、当該復号装置により受信される前記ビットストリーム(ビットストリーム106x、205i等を参照)は、1つのフレーム(図16のフレーム84Fを参照)における複数の位置(セクション841〜84Mを参照)のうちで、当該ピッチ変化位置(図9の位置704pを参照)における信号のみが前記オーディオ信号リコンストラクタによりTimeWarp(ピッチシフト)され、他の位置の信号はTimeWarpされないピッチ変化位置(位置704pを参照)を特定する位置情報(データ102m:図9)を含む復号装置が構築されてもよい。
本発明において説明する時間伸縮方式では、オーディオ信号のハーモニクス構造を分析した情報に基づいて、ピッチ輪郭を修正し、時間伸縮処理の前後のハーモニクス構造を比較することにより、時間伸縮の効率を評価する。このことで、対象オーディオフレームに、時間伸縮を利用するべきかどうかを決定するものである。その処理により、検出されたピッチ輪郭情報の不正確性によりもたらされる音質劣化を防ぐことができ、音質が高くできる。さらに、本発明の時間伸縮技術では、変換符号化からのMSステレオモード情報を利用することで、音質およびオーディオ符号化システムの符号化効率を改善できる。
ピッチ変化比(図18の比88を参照)の変域が、適切な変域(範囲86を参照)にできる。
適切な処理が、より広い範囲の変域のピッチ変化比(図18の比88を参照)のときに行われて、音質が高くできる。
ピッチ(図16のピッチ822、比83、図18の比88等を参照)が符号化された符号(図18の符号90を参照)のデータ量(例えば、データ量の平均等)が小さくできる。
図1は、動的時間伸縮を用いるエンコーダのブロック図である。
図2は、動的時間伸縮を用いるデコーダのブロック図である。
図3は、変更された動的時間伸縮デコーダを用いるデコーダのブロック図である。
図4は、MSモードを利用する動的時間伸縮を用いるエンコーダのブロック図である。
図5は、MSモードを利用する動的時間伸縮を用いるデコーダのブロック図である。
図6は、MSモードを利用する変更された動的時間伸縮を用いるエンコーダのブロック図である。
図7は、閉ループ動的時間伸縮を用いるエンコーダのブロック図である。
図8は、1オーディオフレームのセグメント化を説明する図である。
図9は、ベクトルCの算出を説明する図である。
図10は、ピッチシフトを説明する図である。
図11は、ピッチシフト後のスペクトラムである。
図12は、セントおよび半音を説明する図である。
図13は、エンコーダにおける時間伸縮のブロック図である。
図14は、デコーダにおける時間伸縮のブロック図である。
図15は、ピッチ輪郭の算出を説明する図である。
図16は、対数目盛に基づくスペクトラムである。
図17は、ハーモニクスを利用するピッチシフトを説明する図である。
図18は、表を示す図である。
図19は、先行例での表を示す図である。
図20は、符号化装置および復号装置を示す図である。
図21は、処理の流れを示す流れ図である。
図22は、先行例と本装置とのそれぞれでのデータを示す図である。
以下、説明を参照して、本発明を実施するための形態が説明される。
実施の形態のシステム(図20のシステム2S)に設けられる、実施の形態の符号化装置(符号化装置1)は、入力オーディオ信号(信号101i(図1):図11の信号811を参照)の(のピッチ(例えばピッチ822(図15))を特定する)ピッチ輪郭情報(情報(ピッチ)101x、ピッチ822(図15))を検出するピッチディテクタ(ピッチ輪郭分析ブロック(ピッチ輪郭分析部)101)と、検出された前記ピッチ輪郭情報(情報101x)に基づいて、当該ビット変化比(Tw_ratio(図18)、比83(図15)、比88(図18))の変域(範囲86:図18)は、当該範囲(範囲86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(Tw_ratio:図18)を含むピッチパラメータ(パラメータ(ピッチ変化比)102x、比88(図18))を生成するピッチパラメータジェネレータ(動的時間伸縮ブロック102)と、生成された前記ピッチパラメータ(パラメータ102x)を(符号90(図18)へと)符号化する第1のエンコーダ(可逆符号化部103)と、前記ピッチ輪郭情報(情報(ピッチ)101x、ピッチ822)に従って、前記入力オーディオ信号(信号(第1の信号)101i)のピッチ周波数(ピッチ822:図15)を(参照ピッチ82r(図15)へと)シフトするピッチシフタ(時間伸縮ブロック104)と、前記ピッチシフタから出力された、シフトがされたオーディオ信号(第2の信号104x)を(、符号化された第3の信号150xへと)符号化する第2のエンコーダ(変換エンコーダブロック105)と、前記第1のエンコーダ(可逆符号化ブロック103)から出力された符号化ピッチパラメータ(パラメータ103x、符号90)と、前記第2のエンコーダ(変換エンコーダブロック105)から出力された、前記ピッチシフタから出力された前記オーディオ信号(信号(第2の信号)104x)が符号化されたデータ(第3の信号105x)とを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリーム(ストリーム106x)を生成するマルチプレクサ(マルチプレクサブロック(マルチプレクサ回路)106)とを備える符号化装置(符号化装置1)である。
なお、1セントは、例えば、半音を構成する100セントの音程90j(図12)の、100分の1だけの音程(2つのピッチ(図15の2つのピッチ821、822を参照)の間の差)をいい、換言すれば、1オクターブの音程の、1200分の1だけの音程をいう。
なお、例えば、生成されるピッチパラメータの全体が、ピッチ変化比でもよいし、一部が、ピッチ変化比でもよい。そして、一部等がピッチ変化比である、このようなピッチパラメータは、生成される複数のピッチパラメータのうちの、1つでもよい。
つまり、例えば、前記第1のエンコーダ(可逆符号化103)は、前記ピッチパラメータ(パラメータ102x(図1)、比88(図18))を、当該ピッチパラメータ(比88)が、比較的小さな絶対値(0)のセント数(±0:図18のcentを参照)の(音程の幅の2つのピッチ(ピッチ821、822(図15)を参照)での)ピッチ変化比(例えば1.0)のピッチパラメータ(比88a)である場合には、比較的短い符号長(長さ1:図18のbitsを参照)の符号(符号90a:「0」)の符号化ピッチパラメータ(符号90a)へと符号化し、比較的大きな絶対値(50)のセント数(+50)のピッチ変化比(1.0293:符号88b)のピッチパラメータ(符号88b)である場合には、比較的長い符号長(「111100」での長さ6)の符号(符号90b:「111100」)の符号化ピッチパラメータ(符号90b)へと符号化する符号化装置(符号化装置1)が構築される。
そして、実施の形態の復号装置(図2の復号装置2)は、ピッチシフトされたオーディオ信号(第2の信号203ib:図2)の符号化データ(第3の信号)204iと、符号化ピッチパラメータ情報(パラメータ201i、符号90)とを含むビットストリーム(ストリーム205i(ストリーム106x))を復号する復号装置(復号装置2)であって、復号を行う前記ビットストリーム(ストリーム205i)から、当該ビットストリームに含まれる前記符号化データ(図2の第3の信号204i(図1の第3の信号105x))と、前記符号化ピッチパラメータ情報(パラメータ201i、符号90)とをそれぞれ分離するデマルチプレクサ(マルチプレクサブロック205)と、分離された前記符号化ピッチパラメータ情報(パラメータ201i、符号90)から、当該ビット変化比(比88、Tw_ratio_index、Tw_ratio:図18)の変域(範囲86)は、当該範囲(86a)のピッチ変化比(Tw_ratio:1.0416、1.0293、0.9772、0.9715、0.9604)のセント数(cent:60、50、−40、−50、−60)の絶対値は、42以上である範囲(範囲86a)を含む範囲(範囲86)の変域(範囲86)であるピッチ変化比(比88、Tw_ratio_index、Tw_ratio:図18)を含む復号ピッチパラメータ(パラメータ202i、符号90)を生成する第1のデコーダ(可逆復号ブロック201)と、生成された前記復号ピッチパラメータ(パラメータ202i、符号90)に従って、ピッチ輪郭情報(情報203ia、ピッチ822)を復元するピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック202)と、分離された前記符号化データ(信号204i、第3の信号204i)を復号して、ピッチシフトされた前記オーディオ信号(信号(第2の信号)203ib)を生成する第2のデコーダ(変換デコーダブロック204)と、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報(情報203ia、ピッチ822)に従って、ピッチシフトされた前記オーディオ信号(信号(第2の信号)203ib)を、(前記再構築ピッチ輪郭情報により特定されるピッチを有する、)元のオーディオ信号(第2の信号203x)に変換するオーディオ信号リコンストラクタ(時間伸縮ブロック203)とを備える復号装置(復号装置2)である。
つまり、例えば、前記第1のデコーダ(可逆復号ブロック201:図2)は、分離された前記符号化ピッチパラメータ情報(パラメータ201i(図2)、符号90(図18))を、当該符号化ピッチパラメータ情報(符号90(図18))が、比較的短い符号長(長さ1:図18のbitsを参照)の符号(符号90a:「0」)の符号化ピッチパラメータ情報(符号90a)である場合には、比較的小さな絶対値(0)のセント数(0:図18のcentを参照)のピッチ変化比(1.0、比88a)のピッチパラメータ(比88a)へと復号し、比較的長い符号長(符号90b「111100」での長さ6)の符号(符号90b:「111100」)の符号化ピッチパラメータ情報(符号90b)である場合には、比較的大きな絶対値(50)のセント数(50)のピッチ変化比(1.0293:比88b)のピッチパラメータ(比88b)へと復号する復号装置(復号装置2)が構築される。
つまり、例えば、符号化装置(符号化装置1(図1、図20など)、ステップS1(図21)等を参照)と、復号装置(復号装置2、ステップS2等を参照)とを含んでなる、次のような信号処理システム(信号処理システム2S)が構築されてもよい。
つまり、当該信号処理システムにおいて、前記符号化装置は、例えば、前記ピッチシフタ(時間伸縮部104)が、第1の信号(第1の信号101i、入力オーディオ信号(先述):図1)から、当該第1の信号のピッチ(ピッチ822:図15)が、予め定められたピッチ(参照ピッチ82r)へとシフトされた第2の信号(第2の信号104x、シフトがされたオーディオ信号(先述))を生成し、前記第2のエンコーダ(変換エンコーダ105)が、生成された前記第2の信号(第2の信号104x)を、第3の信号(第3の信号105x、ピッチシフタから出力された前記オーディオ信号が符号化されたデータ(先述))へと符号化し、前記ピッチパラメータジェネレータ(ピッチパラメータ生成部(動的時間伸縮ブロック)102)が、シフトがされる前の前記第1の信号(第1の信号101i)の前記ピッチ(ピッチ822)を特定するピッチ変化比(パラメータ102x(図1)、比88(図18)、Tw_ratio、Tw_ratio_index)を算出し、前記第1のエンコーダ(可逆符号化部103)が、算出された当該ピッチ変化比を符号(符号90(図18)、パラメータ(符号化パラメータ、符号化ピッチパラメータ)103x(図1))へと符号化する符号化装置(符号化装置1:符号化装置1a、1e、1f、1h、1i(図1、図3、図4、図6、図7など))などである。
そして、前記復号装置は、例えば、前記第2のデコーダ(変換デコーダ204)が、前記第1の信号(第1の信号203x(第1の信号101i))から生成された、当該第1の信号(第1の信号203x)の前記ピッチ(ピッチ822:図15)が前記予め定められたピッチ(参照ピッチ82r)へとシフトされた前記第2の信号(第2の信号203ib(第2の信号104x))が符号化された前記第3の信号(第3の信号204i(第3の信号105x))を、前記第2の信号(第2の信号203ib(第2の信号104x))へと復号し、前記オーディオ信号リコンストラクタ(時間伸縮部203)が、復号された前記第2の信号(第2の信号203ib)から前記第1の信号(第1の信号203x)を生成し、前記第1のデコーダ(可逆復号部201)が、前記符号(パラメータ201i(パラメータ103x)、符号90(図18))を、前記ピッチ変化比(パラメータ202i(パラメータ102x)、比88(比88の番号)、Tw_ratio、Tw_ratio_index)へと復号し、前記ピッチ輪郭リコンストラクタ(202)が、復号された前記ピッチ変化比(比88)により特定される、当該ピッチ(ピッチ822)の前記第1の信号(第1の信号203x)が生成される前記ピッチ(ピッチ822)を算出する復号装置(復号装置2:復号装置2c、2g(図2、図5など))などである。
なお、この種の信号処理システムの技術開発は、現在、進められつつある途中であり(非特許文献1〜4などを参照)、このような信号処理システムについては、よく分かっていないことが多い。
つまり、例えば、そもそも、多くの技術者は、このような信号処理システムを知らず、その技術開発に着手する段階にさえ到っていないと考えられる。
つまり、将来、このような信号処理システムの規格(ISO(International Organization for Standardization)における規格など)が定められることが考えられる。そして、定められた後において、比較的広く利用されることが期待される。
例えば、本信号処理システムは、将来定められる規格における信号処理システムである。
このような信号処理システムによれば、例えば、シフトがされた第2の信号(第2の信号104x、203ib)が第3の信号(第3の信号105x、204i)へと符号化され、符号化された第3の信号が、当該第2の信号へと復号される。これにより、符号化装置から復号装置への通信などの処理がされる、音のデータ(第3の信号)が、データ量が小さいデータなどの、より適切なデータにできる。
なお、これにより、ひいては、音のデータが、このように小さいにも関わらず、音質が下げられる必要がなく、高い音質で足りて、音質が高くできる。
しかも、ピッチ変化比が算出されて、第3の信号から復号された第2の信号のシフトがされるのに際して、算出されたピッチ変化比により特定されるピッチへのシフトがされて、確実に、シフトがされる、シフト先のピッチが、適切なピッチにできる。
しかも、算出されたピッチ変化比が符号へと符号化され、符号化された符号が、ピッチ変化比へと復号されて、ピッチ変化比のデータ量よりも小さいデータ量である符号について、通信などの処理がされて、処理がされる、ピッチのデータ(ピッチ変化比が符号化された符号(符号90))のデータ量も小さくできる。
そして、このような信号処理システム(符号化装置1、復号装置2)において、前記ピッチ変化比(比88)が符号化された、当該ピッチ変化比(比88)へと復号される前記符号(符号90)は、当該符号(符号90)に対応する前記ピッチ変化比(比88)が、0セントの音程の差の2つのピッチの間のピッチ変化比(1.0の比88x:図18)に対して、比較的小さな差(0セント)を有する第1のピッチ変化比(比88a)である場合には、比較的短い符号長(長さ1)の第1の符号(符号90a)であり、比較的大きな差(50セント)を有する第2のピッチ変化比(比88b)である場合には、比較的長い符号長の第2の符号(符号90b)等である。
つまり、上記された差が、小さな差である場合には、その差のピッチ変化比(比88a)が出現する出現頻度が高く、大きな差である場合には、その差のピッチ変化比(比88b)の出現頻度が低いことが多いことがあるのに、発明者は、実験を通じて気付いた。
そこで、こうして、差(0セントの比8xに近いか否か(どの程度離れているか))に応じた可変長符号化が利用されてもよい。これにより、第3の信号(信号105x、204i)のデータ量が小さくされて、通信などの処理がされる、ピッチのデータ(信号103x、201i)のデータ量が、より十分に小さくできる。
そして、具体的には、例えば、このような信号処理システムにおいて、シフトがされた前記第2の信号(信号104x、203ib)が符号化された前記第3の信号(第3の信号204i、信号105x)が、前記符号化装置で生成され、前記復号装置で復号される動作(図21のS1、S2)は、シフトがされる前の前記第1の信号(第1の信号101i、203x)の前記ピッチ(ピッチ822)の前記ピッチ変化比(比88)が、0セントの前記ピッチ変化比(比88x)に対して有する差が、閾値(図18における、max{1.0416−1=0.0416、1−0.9604=0.0396}=0.0416)以下の場合(「差」≦0.0416)にのみ行われ、前記閾値よりも大きい場合(0.0416<「差」)には行われない。
そして、例えば、当該閾値は、42セント未満の音程での値(例えば、図19の先行例における、1.02285−1=0.02285など)ではなく、42セント以上に大きい音程での値(上述された、0.0416など)である。
すなわち、こうして、先述された動作がされるか否かが切り替えられる、上述された閾値が、(先行例での閾値(図19での、上述された「0.02285」を参照)と比べて、)より高い値(例えば、図18における、max{1.0416−1=0.0416、1−0.9604=0.0396}=0.0416)にされてもよい。
つまり、先述の動作がされるピッチ変化比(比88)の範囲(変域)が、(先行例での範囲87)より広い範囲86(図18)にされてもよい。
これにより、より広い範囲の変域のピッチ変化比が符号化されて、符号化された符号90のデータ(図22のデータ90L)のデータ量が、より大きくされる。これにより、符号化されたデータ90Lのデータ量が、例えば、先行例における、固定長の符号91で符号化されたデータ91L(図19)のデータ量よりも(かなり)少ないデータ量などの、少な過ぎるデータ量になってしまうことが回避され、比較的近いデータ量(例えば同じデータ量でもよい)などの、適切なデータ量にされ、符号化後のデータ量が、適切なデータ量にできる。
なお、このように、例えば、ピッチ変化比の変域の範囲(上述の閾値)は、符号化された符号90によるデータ(データ90L)のデータ量が、このような、例えば、固定長での符号化がされた際(先行例)におけるデータ(例えばデータ91L)のデータ量に比較的近いデータ量などの、適切なデータ量である範囲(閾値)等である。
しかも、発明者は、実験を通じて、ピッチ変化比(比88)は、直前のピッチ(ピッチ821:図15)に対して、セント数が(42セントより)大きい範囲86aのピッチ変化比だけの大きな変化をしたピッチ(ピッチ822:図15)のピッチ変化比であることが(ある程度)多いことに気づいた。
このため、このような大きな変化のピッチ変化比(比88)が生じても、そのピッチ変化比が、上述の、より広い範囲の変域(範囲86)に属し、第3の信号105xが生成され、第3の信号105xの音質よりも低い音質の他の信号が生成される処理がされるのが回避されるなどにより、音質が高くできる。
これにより、ピッチ変化比の変域が、適切な変域にでき、かつ、音質が高くできる。
なお、こうして、例えば、図18に示されるように、上述された、短い符号長(長さ1)の符号90aは、42セント未満における範囲87のピッチ変化比88aの符号90などである。そして、例えば、長い符号長(長さ6)の符号90bは、42セント以上の範囲86aにおけるピッチ変化比88bの符号90などである。
なお、これに対して、先行例(図19、図13、図14など)においては、42セントより大きい範囲86aのセント数でのピッチ変化比(比88bを参照)が生じること多いことに気づいておらず、つまり、範囲86aのピッチ変化比が生じることが、音質が低い原因であるのに気づいていない。このため、先行例(図19、図13、図14等)から、本技術の構成を導くことは困難と考えられる。
なお、この閾値(上述の説明での「0.0416」)は、例えば、ピッチ変化比の変域の範囲(図18の範囲86、1.0416〜0.9604の範囲)に属する各値のうちで、最も大きい絶対値のセント数での値(1.0416)である。つまり、こうして、閾値が、高い値(例えば、上述の「0.0416」)にされることにより、範囲86が、42未満における範囲87(図19の1.02285〜0.982857を参照)だけでなく、更に、42セント以上の範囲86a(図18の1.0416〜1.0293と、0.9772〜0.9604とでの範囲)も含むようにされて、より広い範囲にされてもよい。
なお、こうして、複数の処理(複数の構成、複数の技術的特徴)が組み合わせられ、組み合わせからの相乗効果が生じる。
なお、組み合わせられる複数の処理は、何れも、この相乗効果のためのパーツ(部品)として利用されるものである点で共通し、単一の技術範囲に属する。
一方で、知られた従来例(例えば、図19、図13、図14などを参照)では、これら複数の処理のうちの一部または全部を欠き、相乗効果は生じない。この点で、本技術は、従来例に対して相違すると考えられる。
なお、この実施形態は、単に、様々な発明ステップの原理を説明するものである。ここに説明する具体例の、様々な変形は、当業者には明らかであろう。
(第1の実施形態)
第1の実施形態において、動的時間伸縮方式を用いる符号化装置を提案する。
図1は、提案のエンコーダ(符号化装置)の例を示す図である。
図1において、左右の信号の1フレームが、ピッチ輪郭分析ブロックであるブロック101に送信される。そして、101(ピッチ輪郭分析ブロック(ピッチ輪郭分析部)101)において、左右のチャネル(2つのチャネル)のピッチ輪郭が、別々に算出される。つまり、それぞれのチャネルのピッチ輪郭が算出される。なお、例えば、先行技術に記載の、ピッチ輪郭検出アルゴリズムを、ここ(ピッチ輪郭分析部101)で用いることができる。
そして、先述された図8に示されるように、1フレームが、M個の重なり合うセグメントに、セグメント化される。1フレーム内で、M個のセクションから、M個のピッチが算出される。
ブロック101で抽出された、左右のチャネルのピッチ輪郭は、動的時間伸縮ブロックであるブロック102に送られる。そして、ブロック102は、各オーディオフレームにおける、ピッチ変化セクション情報(時間伸縮位置)と、それに対応する隣接セクションのピッチ変化比(時間伸縮値)とからなる、抽出されたピッチ輪郭情報に基づいて、ピッチパラメータを生成する。以下、ピッチパラメータを、動的時間伸縮パラメータとも呼ぶ。
この動的時間伸縮パラメータは、可逆符号化ブロックであるブロック103に送られる。可逆符号化ブロックは、さらに、時間伸縮値を圧縮し、符号化時間伸縮パラメータを生成する。なお、ブロック103では、例えば、一般的な可逆符号化技術が用いられる。
その後、生成された符号化時間伸縮パラメータが、マルチプレクサ(マルチプレクサブロック、マルチプレクサ回路)であるブロック106に送られ、ビットストリームが生成される。
動的時間伸縮パラメータは、時間伸縮ブロックであるブロック104に送られる。なお、ブロック104の処理では、例えば、先行技術に記載されている技術が用いられてもよい。ブロック104は、時間伸縮パラメータに従って、入力信号を、再サンプリングする。ステレオ符号化に関し、左右の信号のピッチが、対応する動的時間伸縮パラメータに従って、別々にシフト(時間伸縮)される。
時間伸縮後の信号は、変換エンコーダであるブロック105に送られる。
符号化信号および関連情報もまた、マルチプレクサであるブロック106に送られる。
なお、第1の実施形態における、ブロック101の入力信号は、ステレオ信号である必要はなく、モノラル信号またはマルチ信号であってもよい。動的時間伸縮方式は、あらゆる数のチャネルに適用できる。
(効果)
第1の実施形態において、ピッチ輪郭が、動的時間伸縮方式により処理され、動的時間伸縮パラメータが生成される。そして、生成された動的時間伸縮パラメータは、時間伸縮が適用される位置と、その位置の時間伸縮値とを表す。提案の動的時間伸縮方式により、音質が改善される。時間伸縮値の符号化に用いられるビットを、さらに削減するため、可逆符号化も導入する。
(第2の実施形態)
第2の実施形態において、時間伸縮パラメータを、より効率よく符号化する方式を用いる動的時間伸縮方法を説明する。
課題の欄の記述で説明したとおり、信号の振幅および周期が変化するため、ピッチ検出は、困難な課題である。つまり、ピッチ輪郭情報が、時間伸縮に直接用いられると、ピッチ輪郭の不正確性が、時間伸縮の性能に影響する。信号のハーモニクスは、時間伸縮中のピッチシフトに比例して、修正されるため、ハーモニクスに対する、時間伸縮の影響を考慮する必要がある。
第2の実施形態において説明する時間伸縮方法では、オーディオ信号のハーモニクス構造を分析することで、ピッチ輪郭を修正し、より効率的な、動的時間伸縮パラメータを生成する。これは、3つの部分からなる。
第1に、ハーモニクス構造に従ってピッチ輪郭を修正する。
第2に、時間伸縮の前後のハーモニクス構造を比較することにより、時間伸縮の性能を評価する。
第3に、動的時間伸縮パラメータを効率よく表現する方式を用いる。
先行技術[3]および[4]に記載のようにピッチ輪郭全体を符号化するのではなく、時間伸縮が有効にされている箇所の位置情報のみを符号化し、その位置の時間伸縮値を可逆符号化によって符号化する。
第1に、ピッチ輪郭が修正される。第1の実施形態と同様に、ピッチ算出のため、オーディオフレームが、M個のセクションにセグメント化される。ピッチ輪郭は、M個のピッチ値(pitch1,pitch2,……pitchM)を有する。先行技術[3]および[4]において、ピッチは、参照ピッチ値の近くにシフトされる。時間伸縮の後に、安定した参照ピッチが得られる。
ここで、提案の動的時間伸縮により、信号のハーモニクスを、参照ピッチ値のハーモニクス付近にシフトすることができる。
図17は、ハーモニクスを利用するピッチシフトを説明する図である。
図17に一例を示す。なお、図示されるように、図17においては、破線(3箇所)により、参照ピッチと、それぞれの参照ハーモニクスとの図示がされる。図17において、検出されたピッチは、参照ピッチのハーモニクスに近い。そして、Δf1>Δf2は、次のことを意味する。つまり、Δf1>Δf2は、検出されたピッチを、参照ピッチにシフトするために、より大きな伸縮値(図17のΔf1を参照)が用いられ、検出されたピッチを、参照ピッチのハーモニクスにシフトするために、より小さな伸縮値(図17のΔf2を参照)が用いられることを意味する。
動的時間伸縮の処理は、ピッチ輪郭を修正し、ハーモニクス成分のシフトを可能にする。この修正処理の詳細を、以下に説明する。
提案の動的時間伸縮は、検出されたピッチと、参照ピッチの差分を比較する。
ここで、下記の数2(数式2)におけるpitchrefは、参照ピッチ値を表す。また、pitchiは、セクションiの、検出されたピッチ値を表す。
そして、pitchi>pitchrefであれば、pitchiに、より近いのは、pitchrefか、参照ピッチ値のハーモニクスk×pitchrefの何れであるかを確認する。ここで、kは整数であり、k>1である。
以下の数式2を満たす、kの値が存在する場合には、
値pitch
iは、参照ピッチ値のハーモニクスである、そのkの値における「k×pitch
ref」にシフトされなければならない。検出されたpitch
iは、pitch
i/2に修正される。
他方、pitch
i<pitch
refであれば、pitch
refに、より近いのは、pitch
iか、pitch
refのハーモニクスの何れであるかを確認する。以下を満たすkが存在するならば、
pitch
iのハーモニクスは、参照ピッチにシフトされなければならない。よって、pitch
iは、k×pitch
iに修正される。
第2に、この、修正されたピッチ輪郭に基づき、時間伸縮が適用され、時間伸縮の前後のハーモニクス構造を比較することで、性能が評価される。時間伸縮の前後のハーモニクス成分の和が、第2の実施形態における、性能評価基準として用いられる。
セクションiのピッチ値のハーモニクスは、以下の通り算出される。
ここで、qは、ハーモニクス成分の数である。なお、この実施形態においては、q=3が提案される。そして、S(・)は、信号のスペクトラムを表す。そして、pitchiは、ピッチ輪郭pitch1,pitch2,……pitchMにおいて検出されたピッチ値である。
時間伸縮後に、ハーモニクスの和が算出される。
S’(・)は、時間伸縮後の信号のスペクトラムを表す。
時間伸縮の前には、信号は、pitch1,pitch2,……pitchMのハーモニクスからなる。ハーモニクス比HRは、以下のように、これらのハーモニクス成分の間のエネルギー分布を表すように定義される。
は、ピッチpitch
1,pitch
2,……pitch
Mのハーモニクスの和からなる。
時間伸縮後に、ハーモニクス比HR’が、以下の通り算出される。
H’(pitchref)は、時間伸縮後の参照ピッチのハーモニクスの和である。
は、時間伸縮後のピッチpitch
1,pitch
2,……pitch
Mのハーモニクスの和からなる。
時間伸縮後に、エネルギーが、参照ピッチに制限されることが期待される。他のピッチのエネルギーは低下する。したがって、HR’>HRが期待される。時間伸縮は、HR’>HRの時に効果的であると考えられ、このフレームに、時間伸縮が利用される。
動的時間伸縮の第3の部分では、効率的な方式を用いて、動的時間伸縮パラメータを生成する。フレームにおけるピッチ変化位置は、フレーム内にそれほど多くないことから、ピッチ変化位置と、値Δpiとを別々に符号化するように、効率的な方式を設計することができる。
まず、修正されたピッチ輪郭が、正規化される。次に、隣接する、修正されたピッチの差分が、以下の通り算出される。
先行技術[3]および[4]と異なり、動的時間伸縮は
のベクトル全体を符号化せず、Δp
i≠1である位置を示すために、ベクトルCを用いる。それは、時間伸縮が有効にされている位置を示す。Δp
i≠1である、それらの時間伸縮値Δp
iのみが、可逆符号化技術によって、符号化される。
Δpi=1であれば、C(i)は、1に設定され、そうでなければ、C(i)は、0に設定される。ベクトルCの各要素は、修正されたピッチ輪郭の1セクションに対応する。
図9は、ベクトルCの算出の処理を説明する図である。
ベクトルCの設定内容の一例を、図9に示す。Nは、ピッチが変化し、Δpi≠1であるセクションの数として定義される。
ベクトルCと、Δpi≠1である時間伸縮値Δpiとを符号化するために、動的方式が用いられる。そして、どの方式が選択されたかを示すために、フラグAが生成される。
まず、このフレームに、ピッチ変化点があるかどうかを確認する。N=0であれば、ピッチ変化点がないことを意味する。フラグAが、0に設定され、この場合、フラグAのみが、可逆符号化ブロックであるブロック103に送られる。
1つ以上のピッチ変化点があれば、Δpi≠1である時間伸縮値Δpiと、ベクトルCとがデコーダに送られなければならない。
であれば、ピッチ変化点が多数あることを意味し、この状況では、ベクトルと、Δp
i≠1である時間伸縮値Δp
iとを直接符号化する方が、効率がよい。フラグAが、1に設定され、ベクトルCの符号化に、Mビットを使用する。例えば、ベクトルC=00001111に関し、このベクトルCを表すのに、8ビットが使用される。フラグA、ベクトルC、および、Δp
i≠1であるΔp
iとが、可逆符号化ブロック103に送られる。
一方、N>0かつ
であれば、ピッチ変化点の数が少ないことを意味する。この場合、ピッチ変化点の位置を、直接符号化する方が、効率がよい。フラグAが、2に設定され、ベクトルCにおいて、0に印付けられている位置の符号化に、log
2Mビットを使用する。
例えば、ベクトルC=10111111に関し、ピッチ変化点の位置は、2であり、位置2の符号化に、3ビットが使用される。フラグA、ピッチ変化点の数N、ピッチ変化位置、および、Δpi≠1であるΔpiが、ブロック103に送られる。
先述された通り、Δpiを統計的に分析した後には、値Δpiの発生確率は、一様ではなく、ビットレートの節約に、可逆符号化が用いられてもよい。なお、可逆符号化103(可逆符号化ブロック103)の処理は、算術符号化、または、ハフマン符号化であってもよく、選択されたピッチ比Δpiを符号化する。ここで、Δpi≠1である。
複雑性を低下させる目的で、最初の二つの方式のみを、ブロック102に利用してもよい。
(効果)
動的時間伸縮により、時間伸縮を通して、ハーモニクス構造を再構築することが可能になる。エネルギーが、参照ピッチと、そのハーモニクス成分に制限されることから、符号化効率が、改善される。評価方式により、ピッチ検出の精度への依存が減少し、符号化システムの性能が、改善される。時間伸縮パラメータを符号化する効率的な方式は、ビットレートを減らすことで、音質を改善し、より大きなピッチ変化レートを有する信号の符号化に対応することができる。
(第3の実施形態)
第3の実施形態において、動的時間伸縮方式を用いる復号装置を提案する。
図2は、第3の実施形態のブロック図を示す図である。
デマルチプレクサであるブロック205は、入力ビットストリームを、符号化時間伸縮パラメータ、符号化オーディオ信号、および、関連する変換エンコーダ情報に分割する。
符号化時間伸縮パラメータは、可逆復号ブロックであるブロック201に送られる。このブロックにおいて、動的時間伸縮パラメータが生成される。
動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δpiとからなる。
動的時間伸縮情報は、動的時間伸縮再構築ブロックであるブロック202に送られる。ブロック202は、動的時間伸縮パラメータから、時間伸縮パラメータを復号する。
変換デコーダであるブロック204は、デマルチプレクサブロック205からの変換エンコーダ情報に基づいて、符号化信号を復号する。それは、時間伸縮された信号を復号する。
時間伸縮ブロック203は、時間伸縮された信号を受け取り、入力信号に対して、時間伸縮を適用する。この時間伸縮処理は、第1の実施形態におけるブロック104での処理と同じである。時間伸縮パラメータ、および、オーディオ信号に従って、信号は伸縮されない。
(第4の実施形態)
動的時間伸縮再構築の具体例を、第4の実施形態で説明する。
動的時間伸縮再構築によって受け取られた動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δpiとからなる。
まず、フラグが確認される。フラグが0であれば、対象フレームに、時間伸縮が適用されないことを意味する。この場合、再構築されたピッチ輪郭ベクトルは、全て1に設定される。
フラグが1であれば、時間伸縮が適用される位置を示すベクトルCの符号化に、Mビットが使用されることを意味する。1ビットが、1つの位置に合わせられる。1は、ピッチ変化なしの印として、一方、0は、時間伸縮の印として、印付けられる。ベクトルCにおける0の数を数えることによって、時間伸縮点Nの総数が分かる。その過程で、N回の伸縮値Δpiが、バッファから得られる。Δpiは、時間伸縮値に対応している。ここで、c(i)=0である。
擬似コードは、以下の通りである。
フラグが2であれば、時間伸縮点の数Nが、バッファから読み出される。その後、N個の時間伸縮点が、バッファから読み出される。最後に、時間伸縮点に対応するピッチ比が、バッファから得られる。擬似コードは、以下の通りである。
正規化されたピッチ輪郭は、以下の通りに、再構築される。
ピッチ輪郭は、後に、時間伸縮に用いられる。
(第5の実施形態)
第5の実施形態において、動的時間伸縮方式を用いる、他の符号化装置を提案する。
図3は、提案のエンコーダを示す図である。
図1に示される符号化システムと、図3に示されるエンコーダとの間の違いは、ブロック306および307にある。図3の、可逆復号306の機能は、図2の201と同じである。動的時間伸縮再構築ブロック307は、図2の202と同じである。
図3の、この構成を用いることで、エンコーダは、デコーダと全く同じ時間伸縮パラメータを用いることになる。
第5の実施形態は、エンコーダにおける時間伸縮の精度を高める。
(第6の実施形態)
第6の実施形態において、ミドルサイドステレオモード(MSモード)を組み入れた符号化装置を説明する。
図4は、第6の実施形態の符号化装置の構成を示す図である。
多くの変換コーデックにおいて、例えば、AACコーデック等のステレオオーディオ信号の符号化に、MSモードが、頻繁に用いられる。
MSモードは、周波数領域について、左右のチャネルのサブバンド同士の類似性を検出する。MSステレオモードは、左右のチャネルのサブバンドが類似している時に、有効にされる。そうでなければ、MSモードは有効にされない。
MSモード情報は、多くの変換符号化に利用できることから、動的時間伸縮において、MSモード情報を、ハーモニクス時間伸縮の性能改善のために利用することができる。
先述の図4により、変換コーデックからのMSモード情報を用いる構成が示される。
左右のチャネル信号が、MS演算ブロックである、ブロック401に送られる。MS演算ブロックは、周波数領域について、左右の信号の間の類似性を算出する。これは、一般的な変換符号化における、MS検出と同じである。ブロック401によって、1フラグが生成される。MSモードが、ステレオオーディオ信号の全てのサブバンドに対して有効にされていれば、フラグは、1に設定され、そうでなければ、フラグは、0に設定される。
flag=1であれば、ダウンミックスブロックである、ブロック402において、左右のチャネル信号が、ミドル信号とサイド信号とにダウンミックスされる。ミドル信号は、ピッチ輪郭分析ブロックである、ブロック403に送られる。
そうでなければ、元のステレオ信号がブロック403に送られる。
ピッチ輪郭分析ブロックである、ブロック403は、図1のブロック102と同様に、ピッチ輪郭情報を算出する。ダウンミックスされた信号に対し、1組のピッチ輪郭が生成される。そうでなければ、左右の信号のピッチ輪郭が、別々に生成される。
ブロック404、405、および406、408の説明は、ブロック103、104、および105、196の動作での説明と同じである。
(効果)
第6の実施形態において、動的時間圧縮は、ステレオ符号化に、さらに適するように変更される。ステレオ符号化に関し、左右のチャネルは、異なる特性を持つことがある。この場合、異なるチャネルに対し、異なる時間圧縮パラメータが算出される。左右のチャネルが、類似の特性を有することもある。両チャネルに、同じ時間圧縮パラメータを用いると、合理的である。左右のチャネルが類似している場合、同じ時間圧縮パラメータの組を用いることで、より効率的なオーディオ符号化が、達成できる。
(第7の実施形態)
第7の実施形態において、MSモードに対応する復号装置を説明する。
図5は、第7の実施形態における復号装置のブロック図である。
入力ビットストリームが、デマルチプレクサブロック506に送られる。
ブロック506の出力は、符号化時間圧縮パラメータ、変換エンコーダ情報、および符号化信号である。
変換デコーダであるブロック505は、変換エンコーダ情報に従って、符号化信号を、時間圧縮信号に復号し、MSモード情報を抽出する。
MSモード情報は、MSモード検出ブロック504に送られる。
このフレームの全てのサブバンドに対して、MSモードが有効にされていれば、MSモードは、時間圧縮に対しても、有効にされ、フラグが、1に設定される。そうでなければ、MSモードは、ハーモニクス時間伸縮の再構築に用いられず、フラグは、0に設定される。当該MSモードフラグは、ハーモニクス時間伸縮再構築ブロック502に送られる。
動的時間伸縮パラメータは、可逆復号ブロックであるブロック501から、逆量子化される。
動的時間伸縮再構築ブロック502は、MSフラグに従って、時間伸縮パラメータを再構築する。
M/S flag=1であれば、1組の時間伸縮パラメータが生成され、そうでなければ、動的時間伸縮パラメータから、2組の時間伸縮パラメータが生成される。時間伸縮パラメータの生成プロセスは、第2の実施形態と同じである。
時間伸縮ブロック503において、M/S flag=1であれば、時間伸縮された左信号と、時間伸縮された右信号とに、異なる時間伸縮パラメータが適用される。そうでなければ、時間伸縮されたステレオオーディオ信号に、同じ時間伸縮パラメータが適用される。
(第8の実施形態)
図6は、MSモードを利用する、変更された動的時間伸縮を用いるエンコーダのブロック図である。
図6に示されるように、エンコーダにおける時間伸縮の精度を高めるように、第4の実施形態を変更する。
この変更は、第3の実施形態の変更と同じである。
可逆符号化ブロック608、および、動的時間伸縮再構築ブロック609が、符号化構造に追加される。この目的は、エンコーダが、デコーダと同じ時間伸縮パラメータを用いるようにすることである。ブロック608、および、609の説明は、図5の、ブロック501および502の説明と同じである。
(第9の実施形態)
第9の実施形態において、閉ループ動的時間伸縮手段を備える符号化装置を、導入する。
図7は、第9の実施形態の符号化装置を示す図である。
第9の実施形態の構成は、第8の実施形態の構成に基づくが、比較スキーム(比較スキーム710)が、追加されている。符号化信号、および、時間伸縮パラメータを、図7のマルチプレクサ711に送る前に、比較スキーム710において、符号化信号が確認される。時間伸縮の復号後に、全体の音質が改善されているかどうかが、判断される。
比較スキームには、様々な種類がある。一例は、復号信号のSNRを、元の信号と比較することである。
第1に、時間伸縮された符号化信号が、変換デコーダによって、復号される。図7の708と同じ時間伸縮パラメータを用いて、復号された時間伸縮信号に時間伸縮が適用され、非伸縮信号が生成される。非伸縮信号と元の信号とを比較することによって、SNR1が算出される。
第2に、他の符号化信号が、時間伸縮を適用することなく、生成される。この符号化信号は、同じ変換デコーダによって復号され、復号信号を、元の信号と比較することによって、SNR2が算出される。
第3に、SNR1と、SNR2とを比較することによって、決定がなされる。SNR1>SNR2であれば、時間伸縮が選択され、第1の符号化信号、変換エンコーダ情報、および、符号化時間伸縮パラメータが、デコーダに送られる。そうでなければ、時間伸縮は選択されず、第2の符号化信号、および、変換エンコーダ情報が、デコーダに送信される。
比較スキームの、他の方法として、SNRの代わりに、ビット消費を比較することができる。
要約すれば、次のことが言える。すなわち、時間伸縮技術は、オーディオ符号化システムにおけるピッチ変化の影響を補うために用いられる。そして、時間伸縮の効率を改善するために、動的時間伸縮方式が提案される。本発明の時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することによって、音質を改善する。動的時間伸縮方式は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の有効性を評価し、対象オーディオフレームに、時間伸縮を利用すべきかどうかを決定する。それにより、不正確なピッチ輪郭情報によってもたらされる不正確性を取り除く。動的時間伸縮は、また、時間伸縮パラメータを、より効率的に符号化する方法を提供し、変換符号化から得られるMSモード情報を用いて、音質および符号化効率を改善する。
なお、こうして、符号化装置1および復号装置2(信号処理システム2S、図1、図2、図20、図21など)が構築されてもよい。そして、例えば、ある局面などにおいて、次の動作がされてもよい。上述された処理のうちの一部(または全部)は、以下で説明される動作と同じ(類似する)動作などでもよい。
つまり、符号化装置1において、次の処理がされてもよい。
つまり、音の信号101i(図1、図11の信号811を参照)から、当該信号101iのピッチ(例えば、図15のピッチ822を参照)が、参照ピッチ(先述:例えば、図15の参照ピッチ82r)へとシフトされた信号104x(図1、図11の信号812を参照)が生成されてもよい(時間伸縮部104、図21のステップS104)。
なお、このようにして、シフト先のピッチ(参照ピッチなど)へのシフトがされてもよい。そして、シフト先のピッチは、先述のように、参照ピッチでなく、参照ピッチの倍音(ハーモニクス)などでもよい(数式2などを参照)。
なお、信号101i(信号104x)は、具体的には、例えば、ステレオの2チャンネル、5.1チャンネル、または、7.1チャンネルなどのマルチチャンネルの複数のチャネルなどの、複数のチャンネルのうちの1つのチャンネルにおける信号などでもよい。
そして、さらに具体的には、信号101iは、例えば、複数のセクション(例えば、図16に示される、フレーム84F(図16)に含まれる、M個のセクション84(セクション841〜セクション84M)を参照)の信号のうちの、1つあるいは一部のセクション84における信号などでもよい。
なお、図16のMの値は、具体的には、例えば16などでもよい。
そして、例えば、上述された参照ピッチ(参照ピッチ82r)は、信号101iが符号化されるよりも、当該参照ピッチへとシフトがされた後の信号104xが符号化される方が、より適切な符号化がされるピッチである。
つまり、ここで、適切であるとは、例えば、仮に、シフトがされる前の信号101iが符号化されたと仮定した際における、(音質を維持したままでの、)符号化後のデータ量よりも、シフトがされた後の信号104xが符号化された信号105x(図1)のデータ量の方が小さいことなどをいう。つまり、例えば、小さい方のデータ量は、そのデータ量のデータの音質と同じ音質で、音質が維持された他方のデータのデータ量よりも小さいデータ量などをいう。
つまり、例えば、参照ピッチは、信号101iのセクション(例えば図15のセクション822s)以外の他のセクション(例えば、セクション822sに隣接するセクション821s)でのシフトで、当該他のセクションのピッチ(ピッチ821)がシフトされる先のピッチ(例えば、参照ピッチ82r)と同じピッチ(参照ピッチ82r)などである。
そして、シフトがされた後の信号104x(図1)が、信号105xへと符号化されてもよい(変換エンコーダ105、ステップS105)。
これにより、シフトがされた後の信号104xが、スペクトル的に符号化し易くなり、符号化し易くなった信号を符号化することで、シフトしない信号(第1の信号101i)を符号化することに比べて、同じ音質であれば、符号化に必要なデータ量が少なくできる。
つまり、こうして、シフトがされて、シフトがされる前における第1の信号101iが直接符号化されるのが回避され、シフトがされた後の第2の信号104xが、第1の信号101iが直接符号化された信号のデータ量よりも小さいデータ量の第3の信号105xへと符号化され、第1の信号101iの音の、符号化された信号として、より小さいデータ量の第3の信号105xが用いられる。
一方で、シフトがされる前の信号101iのピッチ(ピッチ822(図15)を参照)を特定するパラメータ102x(先述された動的時間伸縮パラメータ、ピッチパラメータ)が算出されてもよい(ピッチパラメータ生成部102、ステップS102)。
なお、先述のように、例えば、算出されるパラメータ102xは、予め定められた比(図18の比88(Tw_ratio):先述されたピッチ変化比)でもよい。そして、算出された比(比88、パラメータ102x)は、予め定められたピッチ(例えば、図15のピッチ821を参照)から、当該比(図15に示される比83を参照)だけの変化をしたピッチ(ピッチ822)を特定することができる(図15に示される比83を参照)。
なお、さらに具体的には、例えば、比88のデータは、その比88の番号(図Tw_ratio_index)を特定する、番号のデータであり、特定される番号の比を特定することにより、比を間接的に特定してもよい。このような、番号のデータが、パラメータ102xとして算出されてもよい。
なお、図15においては、符号83の矢印線の先端の位置により、符号83で示される比が、ピッチ821と、ピッチ822との間の比であることが模式的に図示される。
そして、算出されるパラメータ102xは、符号化された、音の信号105xが(例えば復号装置2などにより)復号される際に、信号105x(図2の信号204i)が復号された信号(図2の信号203ib(図1の信号104x))から、当該パラメータ102xにより特定されるピッチ(ピッチ822を参照)の信号(図2の信号203x(図1の信号101i))が生成される(逆シフトがされる)パラメータでもよい。
なお、さらに具体的には、当該パラメータ102xが、符号化装置1から、復号をする装置(復号装置2)へと通信されて、通信されたパラメータ102x(図2の信号201iを参照)により、上述の処理がされてもよい。
これにより、復号された後の信号(図2の信号203x)のピッチが、確実に、適切なピッチ(ピッチ822を参照)にできる。
なお、こうして、音のデータ(図1の信号104x、信号105x、図2の信号203ib、信号204i)と共に、ピッチのデータ(ピッチを特定するパラメータ102x)が利用されて、音のデータと、ピッチのデータとの2つのデータが利用されてもよい。
しかしながら、音のデータについて、信号101iから符号化された、信号203ibへと復号される、小さなデータ量の信号(図1の信号105x、図2の信号204i)が利用されて、音のデータのデータ量が小さくされることではなくて、むしろ、他方の、ピッチのデータ(図1のパラメータ102x、図2のパラメータ201i)のデータ量が小さくすることの方が、より強く望まれることも考えられる。
そこで、より具体的には、例えば、算出されたパラメータ102xが、パラメータ102xのデータ量よりも小さいデータ量を有する、符号化後のパラメータ103x(図1、図2のパラメータ201i)へと符号化(可逆符号化(Huffman符号やArithmetic符号化など))されてもよい(可逆符号化103、ステップS103)。
これにより、パラメータ102x(ピッチのデータ)についても、符号化(可逆符号化)を施すことで、パラメータ102x(ピッチのデータ)のデータ量も小さくできる。
しかしながら、算出されるパラメータ102x(図1、図2のパラメータ204i)によって特定できるピッチ(例えば、図15のピッチ822を参照)のセクション(セクション822s)の時刻に隣接する時刻のセクション(直前のセクション821s)のピッチ(ピッチ821)もある。
そこで、算出されるパラメータ102xは、隣接する(セクション(セクション821s)の)ピッチ(ピッチ821)と、そのパラメータ102xのピッチ(ピッチ822)との間の比(比83、図18のTw_ratio)を特定するパラメータでもよく、この比を算出(特定)して、算出された比に対して可逆符号化を行い、この比が不可逆符号化された後のデータを、符号化時間伸縮パラメータとしてもよい(先述の説明を参照)。
つまり、算出されるパラメータ102xは、そのパラメータ102xによって特定される比(図15の比83)だけの変化を、隣接するピッチ(ピッチ821)から有するピッチ(ピッチ822)を特定して、ピッチ(ピッチ822)を、当該比によって間接的に特定してもよい。
しかしながら、発明者は実験を行い、比較的多くの場合においては、0セントの音程の変化の比88x(1.0の比:図18)に対して比較的近い比88a(例えば、比88xそのものなど)は、高い頻度(出現頻度)で生じる一方で、比88xから比較的離れた比88b(例えば、図18に示される、「1.0293」の比など)は、低い頻度で生じることに気付いた。
つまり、比88が生じる(出現する)頻度は、その比88が、0セントの比88xに近いか否かに応じた頻度(0セントの比88xに近いほど高く、離れるほど低い頻度)であることに気付いた。
そこで、算出された比88(パラメータ102x)は、0セントの比88xに対して比較的近い比(比88a:図18)で、比較的高い出現頻度で出現する比88aである場合には、比較的短い符号長(ビット長、長さ)の符号(符号(ビット列)90a(図18)、例えば、長さが1である符号「0」(図18を参照)など)へと符号化されてもよい。
そして、他方で、算出された比88(パラメータ102x)は、0セントの比88xから比較的離れた比(比88b)であり、比較的低い出現頻度で出現する比88bである場合には、比較的長い長さの符号(符号90b、例えば、図18に示される、符号長が6の符号「111110」)へと符号化されてもよい。
つまり、こうして、算出された、それぞれの比88(パラメータ102x:比88a、比88bなど)が、その比88が、0セントの比88xに近いか否か(比88xとの差がどの程度であるか)に応じた出現頻度に対応する符号長の可変長符号90(符号90a、90bなど)へと、可変長符号化されてもよい。
なお、具体的には、例えば、比88(比88a、88bなど)に対して、その比88に対応した適切な可変長符号90(符号90a、90bなど)を対応付けるテーブル103t(テーブルのデータ、テーブル85:図18、図20、図1などを参照)が記憶されてもよい。
なお、このテーブル103tは、具体的には、例えば、可逆符号化部103(第1のピッチ処理部103A:図1、図20等を参照)により記憶されてもよい。
そして、記憶されたテーブル103tにより、算出された比88(比88a、88b:パラメータ102x(図1))が対応付けられた可変長符号90(符号90a、90b:パラメータ103x(図1))へと、その比88が符号化されることにより、可変長符号化が行われてもよい。
これにより、ピッチの、符号化後のパラメータ103x(符号90)のデータ量が、より小さくなり、変換エンコーダで使うことの出来る符号化データ量を間接的に増やすことができ、符号化音質を向上させることができる。
そして、復号装置2(図2等)において、次の処理がされてもよい。
つまり、音の信号203ib(信号104x:図1)が符号化された信号204iが、信号203ib(信号104x)へと復号されてもよい(変換デコーダ204、ステップS204)。なお、変換デコーダの方式は、例えば、MPEG(Moving Picture Experts Group)−AAC(Advanced Audio Coding)などのような直交変換符号化方式であってもいいし、ACELP(Algebraic Code Exited Linear Prediction)などの音声符号化方式であっても良いし、その他の方式などでもよい。
そして、復号される信号204iは、より具体的には、シフトがされる前の、音の信号203x(信号101i)から生成された、当該信号203x(信号101i)におけるピッチ(ピッチ822)が、参照ピッチ(参照ピッチ82r)へとシフトされた後の信号203ib(信号104x)が符号化された信号204i(信号105x)である。
つまり、復号される信号204iは、例えば、上述された符号化装置1により、符号化がされた後における信号105xでもよい。
つまり、さらに具体的には、例えば、復号される信号204iは、符号化をした符号化装置1から復号装置2へと通信されるデータ(図1のストリーム106x、図2のストリーム205i)に含まれ、符号化装置1から復号装置2へと通信される信号でもよい。
そして、信号204iから復号された信号203ibから、復号された当該信号203ibにおける参照ピッチ(参照ピッチ82r)が、シフトがされる前のピッチ(ピッチ822)へとシフト(逆シフト)された信号203xを生成する(時間伸縮部203、ステップS203)。
そして、より具体的には、符号化時間伸縮パラメータ201iを可逆復号化して、動的時間伸縮パラメータ202iを取得する。取得された動的時間伸縮パラメータ202iは、前記TW_Ratio_Indexで表される。そして、取得された動的時間伸縮パラメータ202i、および、TW_Ratio_Indexと、TW_Ratioとの間の関係を表したテーブル103tにより、時間伸縮パラメータTW_Ratioを取得する。取得したTW_Ratioに応じて、信号203ibを、時間伸縮回路(時間伸縮部)203にて、シフトされる前のピッチに相当する非伸縮信号203xへと変換する(逆シフト)。
そして、具体的には、比88(パラメータ202i、パラメータ102x)が符号化されたパラメータ201i(図1のパラメータ103x)が、比88(パラメータ202i、パラメータ102x)へと復号されて、復号された比88(パラメータ202i)により特定されるピッチ(ピッチ822)へのシフトがされてもよい(可逆復号部201、S201)。
これにより、ピッチのデータのデータ量についても、符号化されたデータ(パラメータ201i、パラメータ103x)における、小さなデータ量にされて、ピッチのデータのデータ量も小さくできる。
そして、発明者は、先述のように、比88は、0セントの比88xに近い比88aである場合には、高い頻度で出現し、0セントの比88xから離れた比88bである場合には、低い頻度で出現することに気付いた。
そこで、0セントの比88xに近い比88aへと、比較的短い符号90aが、復号され、0セントの比88xから離れた比88bへと、比較的長い符号90bが復号されてもよい。
つまり、こうして、0セントの比88xに近いか否かに応じた出現頻度に合わせた復号(当該出現頻度に基づいた可変長符号化における復号)がされてもよい。
なお、換言すれば、復号されるパラメータ201iの符号90(図18)は、0セントの比88xに近い比88aの符号90(符号90a)である場合には、短い符号90aであり、0セントの比88xから離れた比88bの符号90(符号90b)である場合には、長い符号90bであってもよい。
つまり、これにより、短い符号90aが、0セントの比88xに近い比88aへと復号され、長い符号90bが、0セントの比88xから離れた比88bへと復号されてもよい。
これにより、より十分に、ピッチのデータのデータ量が小さくできる。
なお、より具体的には、例えば、先述されたテーブル103t(テーブル85:図18)に対応する復号化テーブル201t(図18、図2、図20など:テーブル85)を記憶しておく。
そして、さらに具体的には、例えば、テーブル201tは、可逆復号部201(第2のピッチ処理部201A:図2、図20などを参照)により記憶されてもよい。
そして、記憶されたテーブル201tにより、可変長符号90(符号化されたパラメータ201i)が対応付けられた比88(パラメータ202i)へと復号がされることにより、適切な、復号の処理がされてもよい。
なお、先行例としては、固定長の長さの固定長符号(図19における、3ビットの長さの固定長符号91(符号91a、91b)を参照)により、ピッチのデータ(比88(図18)、図1のパラメータ(パラメータ202(図2等)を参照)が、固定長符号化される技術が知られる。
そして、先述された、図16の説明で述べられたように、例えば、1つのフレーム84Fは、16個のセクション84(セクション841〜84M、M=16)へと分割される。
このため、先行例では、それぞれのフレーム84Fについて通信されるデータ9L(図22の第1行第2列)は、例えば、そのフレーム84Fの16個のセクション84に対応する、16個の固定長符号91(図22の固定長符号91c、91dなど)を含み、3ビット×16個=48ビット(図22の表の第1行第3列を参照)だけの、比較的大きいデータ量を有する。
これに対して、本実施形態の符号化装置1、復号装置2によれば、それぞれのフレーム84Fについて通信されるデータ90L(図22における第2行、第3行)は、図22に示される15個の「1」の文字により示される、15個の、長さ1の符号90cを含む。
そして、本実施形態におけるデータ90Lは、例えば、図22に示される1個の、「6」(データ90Lsでは「4」)の文字により示される、1個の、長さ6(データ90Lsでは長さ4)の符号90d(データ90Lsの符号90ds、データ90Ltの符号90dt)を含む。
このように、本実施形態におけるデータ90Lは、高い頻度(例えば、図22の例では、15/16の頻度)で出現する、短い長さ(例えば、図22における、符号9cにおける長さ1、および、図18の表の符号90a「0」における長さ1などを参照)の符号90c(図18における符号90a)を、多い個数(例えば、図22のデータ90Lの例では15個)だけ含む。
そして、データ90Lは、長い長さ(例えば、図22における長さ6個(データ90Lsでは長さ4)、および、図18の符号90b「111110」における長さ6などを参照)の符号90d(図18の符号90b)を、少ない個数(例えば、図22で例示される1個)だけ含む。
つまり、図示されるように、本システムでのデータ90Lは、例えば、1×15+6×1=21ビット(第3行のデータ90Ls)、または、1×15+4×1=19ビット(第2行)などの、比較的小さいデータ量を有する。
このため、例えば、本システムによれば、それぞれのフレーム84Fの通信等の処理でのデータ90Lのデータ量における、先行例でのデータ91L(図22の第1行)でのデータ量からの減少幅として、48−21=27ビット(第3行のデータ90Lt)、または、48−19=29ビット(第2行のデータ90Ls)などの減少幅が生じることが期待できる。
なお、これらの減少幅(27ビット、29ビットなど)は、単なる、計算によって、理論的に想定される一例である。つまり、上述された、減少のための原理は、これらの減少幅(27ビット、29ビット)と同一または近似する減少幅を得るために利用されてもよいし、比較的小さい減少幅などの、その他の減少幅を得るために利用されるなどしてもよい。
このように、本実施形態によれば、減少がされる、データ量の減少幅が、比較的大きな減少幅(例えば、上述された27ビット、29ビットなど)にできる。
そして、さらに、本システムにおいて、次の動作がされてもよい。
図12により、半音を構成する100セント(1セントは、1オクターブの1200分の1)だけの音程90jが示される。このような半音の音程90jの100分の1だけの音程が、1セントである。なお、この点については、例えば、図12に示される「100c」の文字も、参照されたい。
そして、図18の表における第1列(cent)における、それぞれの行においては、その行の比88だけ互いに離れた2つのピッチ(図15のピッチ821、822を参照)の間の音程が、1セント(cent)の何倍の音程であるかが示され、つまり、その行の比88の音程のセント数が示される。
なお、例えば、図18の表の第3行(符号「111100」の行)においては、1.0293倍の比88(比83(図15)を参照)のセント数が、50セントであることが示される。
そして、範囲861(図18:範囲86aの一部)は、0セントの比88x(図18の第8行)から、42セント以上に大きい比88(1.0293、1.0416)の範囲(比88xより大きく、かつ、比88xからの差の絶対値が、42セント以上である範囲)を示す。
一方で、範囲862(範囲86aの一部)は、−42セント以上に小さい比88(0セントの比88xから、より小さい方へと、42セント以上離れた比88(0.9772、0.9715、0.9604)の範囲(比88xよりも小さく、かつ、比88xからの差の絶対値が、42セント以上であるは範囲)である。
つまり、範囲861と、範囲862とを合わせてなる範囲86aは、0セントの比88x(第8行)からの差の絶対値が、42セント以上であり、比88xから、42セント以上、離れた比88の範囲を示す。
そして、範囲87は、42セント未満だけしか離れてない、比88の範囲である。
なお、この範囲87については、後で、さらに詳しく説明される。
そして、比88a(図15の比83a)は、図18に示されるように、例えば、上述された、42セント未満における範囲87に属する比88であり、比88b(図15の比83b)は、42セント以上である範囲86aに属する比88である。
なお、比83(図15、図18の比88)を作る2つのピッチ(図15のピッチ821、822を参照)の間の差は、その比83が、42セント未満の範囲87での比83a(比88a)であれば、比較的小さい差であり、42セント以上の範囲86aでの比83b(比88b)であれば、比較的大きな差である。
そして、発明者の実験によれば、42セント未満の範囲87の比88aが生じるだけに止まることなく、このような、大きな差の2つのピッチ(ピッチ821、822を参照)が生じて、42セント以上の範囲87での比88aが現れることがあるのがみられた。
なお、ここで、比88aは、例えば、0セントの比88x(Tw_ratio「1」)に対して比較的近い比88a(図18では、比88xそのもの)である。
そして、他方の比88bは、比88xから比較的遠い比88bである。
つまり、先述のように、例えば、比88aに対応する符号90a(符号「0」)の長さ(長さ1)は、比88bに対応する符号90b(「111100」)の長さよりも短い。
そこで、例えば、信号101i(図1)の比88として、範囲87に属する比88aが算出された場合において、算出された比88aに対応する符号90a(図1のパラメータ103x)が生成され(符号化装置1)、生成された符号90aが、比88a(図2のパラメータ202i)へと復号されて(復号装置2)、先述された処理がされてもよい。
つまり、これにより、比88が、範囲87に属する比88aである場合において、先述された処理がされて、シフトが利用され、音のデータ(信号105x(図1)、信号204i(図2)を参照)のデータ量が小さくされてもよい。
そして、さらに、信号101iの比88として、範囲86aに属する比88bが算出された場合においても、比88bに対応する符号90bが生成され、生成された符号90bが、比88bへと復号されて、先述された処理がされ、音のデータ(信号105x(図1)、信号204i(図2)を参照)のデータ量が小さくされてもよい。
これにより、範囲86aの比88bが算出される場合、つまり、2つのピッチ(ピッチ822、821)の間の比83が、42セント以上である場合にも、先述の処理がされて、音のデータのデータ量が小さくされて、より確実に、音のデータのデータ量が小さくできる。
つまり、比83(図15)が、42セント未満の比83aであり、2つのピッチ(図15のピッチ822、821を参照)の間の変化が、小さい変化である場合だけでなく、42セント以上の比83bで、大きい変化である場合にも、音のデータのデータ量が小さくされる。つまり、ピッチの変化(図15のピッチ822、821を参照)が大きいか小さいかに関わらず、音のデータのデータ量が小さくされ、確実に、音のデータのデータ量が小さくできる。
なお、これに対して、先行例(図19)においては、2つのピッチ(ピッチ822、821を参照)の間の比89(図19)が、42セント未満である範囲87に属する比である場合にのみ、データ量が小さくされる処理がされて、確実に、音のデータのデータ量が小さくできない。
このように、本システムでは、確実にデータ量が小さくできて、先行例(図19等)に対して、際立った先進性を有する。
なお、このようにして、本実施形態によれば、適切な処理がされる範囲が、先行例における比較的狭い範囲(範囲87のみからなる範囲)から、その範囲よりもさらに広い範囲(範囲87を含むのに加えて、更に、範囲86aまで含んだ範囲86)にされて、適切な処理がされる範囲が、より広い範囲(範囲87)にできる。
先述された、範囲87は、このような、広げられた範囲の一例である。
つまり、発明者の現時点での知識によれば、先行例で適切な処理がされる範囲(範囲87)は、少なくとも、42セント未満の比(比88等を参照)のみが含まれてなる範囲である。
また、たとえば、次のような局面では、次の動作・構成をしてもよい。つまり、その位置704p(図9)での、2つのピッチ(図15のピッチ822、821を参照)の間の比83p(図9)が、0セントの比90x(図18)(の近傍)ではない位置704p(先述された、ピッチが変化する位置)と、その位置704q(図9)での比83q(図9)は、0セントの比90x(の近傍)である位置704q(先述された、ピッチが変化しない位置)がある局面(符号化フレーム)がある。そして、構築される符号化装置は、例えば、この符号化フレームにおいて、ピッチ変動のある箇所(図9の704p)と、ピッチ変動の無い箇所(図9の704q)のそれぞれの場所を記憶(図9のベクトルC、102m)して、その場所情報(ベクトルC、102m)、および、ピッチ変動点(704p)におけるTW_RatioまたはTW_Ratio_Indexの情報を、復号化装置へと送信する符号化装置であっても良い。そうすることで、ピッチ変動箇所のみのTW_Ratio(またはTW_Ratio_Index)を送信するだけですむため、必要最小限の通信データ量(符号化量)によって、符号化・復号化装置を構成することもできる。
こうして、ピッチが変化する位置704pと、変化しない位置704qとを含む複数の位置704xがある場合、位置704xは、多くの場合においては、ピッチが変化しない位置704qであり、変化する位置704pであることは少ない(僅かである)ことに気付く(先述)。
そこで、パラメータ102x(図1、図2のパラメータ202i)は、例えば、変化する位置704pを特定するデータ102m(図9等)と、データ102mにより特定される、変化する位置704pでの比83p(を特定するデータ)とを含んでもよい。
そして、パラメータ102xは、含まれるデータ102mにより特定する位置704pの比(比83p)を、当該パラメータ102xに含まれる(データ(上述)により特定される)比83pと特定してもよい。
そして、他方で、パラメータ102xは、含まれるデータ102mにより特定される位置704p以外の他の位置(ピッチが変化しない位置704q)での比(比83q)を、例えば、0セントの比90x(図18)などの、ピッチが変化しない位置704qにおける比83qと特定してもよい。
これにより、それぞれの位置(位置704p、704q)における比(比83p、83q)が何れも特定されるにも関わらず、パラメータ102xは、変化する位置704pの比83pのデータのみを含み、変化しない位置704qのデータを含まず、多くの位置(変化しない位置704q)のデータは含まず、ピッチのデータ(図1のパラメータ102x、103x、図2の204i、203いb)のデータ量が、さらに十分に少なくできる。
なお、こうして、復号装置2へと入力される、信号204i(ストリーム205i)のピッチ(ピッチ822、ピッチ822の比88)を符号化する符号(可変長符号90、データ90L(図20、図22))のフォーマット(図18のテーブル85)が開示される。
開示されるフォーマットにおいて、0セントの比88xに比較的近い比88aの符号(可変長符号90、符号90a)は、より短い長さ(長さ1)の符号90a(「0」)である一方で、0セントの比88xから遠い比88bの符号(可変長符号90、符号90b)は、より長い長さ(長さ6)の符号90b(「111100」)である。
そして、入力された、このフォーマットの符号(可変長符号90、データ90L)に対して、復号装置2により行われる処理(手続)S2(図21)が開示される。
このような、フォーマット(図18)および手続(処理S2)により、先述のようにして、ピッチのデータ(パラメータ103x、203x)のデータ量が、例えば、図22における、第1行第3列の48ビットから、第2行第3列の21ビット(第3行第3列の19ビット)への減少幅などだけ小さくされて、ピッチのデータのデータ量が、より小さくできる。
そして、例えば、このような、フォーマットおよび手続が記載された規格書による規格が定められて、本技術がより広く利用されてもよい。
これにより、より広い場面において、ピッチのデータ量が、より小さくされるようにされて、より大きく、産業の発達に寄与できる。
こうして、本技術によれば、複数の構成(可逆符号化部103など)が組み合わせられて、組み合わせからの相乗効果が生じる。これに対して、知られる従来例(図13、図14、図19、および、その他の技術など)においては、これら複数の構成のうちの一部または全部を欠き、本技術における相乗効果が生じない。
この点で、本技術は、従来例に対して先進性を有すると考えられる。
なお、符号化装置1の一部(または全部)は、当該符号化装置1の1以上の機能が実装された集積回路(例えば、図20の集積回路1Cを参照)でもよい。また、当該符号化装置1の1以上の機能を、当該符号化装置1の一部(または全部)であるコンピュータに実行させるためのコンピュータプログラム(プログラム1Pを参照)が構築されてもよい。
同様に、復号装置2の機能が実装された集積回路(集積回路2Cを参照)、コンピュータプログラム(プログラム2Pを参照)などが構築されてもよい。
また、このコンピュータプログラムが記憶された記憶媒体が構築されてもよいし、このコンピュータプログラムのデータのデータ構造などが構築されてもよい。
また、互いに異なる複数の実施形態での記載などの、互いに離れた箇所の複数の記載で示される複数の技術事項が、適宜組み合わせられてもよい。それらの複数の記載により、組み合わせられた形態も開示される。
また、単なる細部については、如何なる形態が採られてもよく、例えば、更なる改良発明が加えられた形態が採られてもよいし、単なる、実際の実施に際して、当業者が容易に思い付く形態などが採られてもよい。
なお、図21における、複数のステップ(ステップS101およびS104など)が実行される順序は、適切な動作が可能である範囲内の、如何なる順序でもよい。例えば、ステップS101の順序は、ステップS104の順序よりも先でもよいし、後でもよいし、並列に実行されるなどして、同じ順序でもよい。
なお、処理により扱われる範囲としては、様々な範囲が考えられる。そして、本技術では、このような様々な範囲のうちから、上述された、ピッチ変化比(図18の比88、図19の比89)の変域の範囲(範囲86、87)が、より狭い範囲(先行例での範囲87)から、より広い範囲(範囲86)へと広げられる範囲として選択される。このような、本技術によってされた、範囲の選択に想い到ることは容易でないと考えられる。
なお、こうして、例えば、以下の各装置等が実施されてもよい。
つまり、当該復号装置(復号装置2)により受信される前記ビットストリーム(ビットストリーム106x、205i)は、1つのフレーム(フレーム84F:図16)における複数の位置(セクション841〜84M)のうちで、当該ピッチ変化位置(位置704p)における信号のみが前記オーディオ信号リコンストラクタ(時間伸縮ブロック(時間伸縮部)203)によりTimeWarpされ(時間伸縮の処理がされ)、他の位置の信号はTimeWarpされない(時間伸縮の処理がされない)ピッチ変化位置(位置704p)を特定する位置情報(例えば、図9のデータ102m)を含む復号装置が構築されてもよい。
そして、前記ピッチパラメータジェネレータ(動的時間伸縮ブロック102)は、検出された前記ピッチ輪郭情報(情報101x)に基づいて、ピッチ変化位置(位置704p(図9)、データ102mを参照)と前記ピッチ変化比(比83pを参照)とを含む前記ピッチパラメータ(パラメータ102x:例えば、ピッチ変化位置を特定する第1のピッチパラメータ102xと、ピッチ変化比を特定する第2のピッチパラメータ102xとの2つのピッチパラメータ102xなど)を生成する符号化装置が構築されてもよい。
つまり、例えば、複数の位置のうちで、ピッチ変化位置におけるピッチ変化比のデータのみが処理され、他の位置のピッチ変化比のデータが処理されなくてもよい。
そして、先述されたように、例えば、ピッチ変化位置の個数は僅かであり(少なく)、他の位置の個数は多い。
このため、少ない個数の位置(ビット変化位置)のデータの処理のみで済み、処理がされるデータのデータ量が少なくできる。
なお、ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック307:図3)等が更に設けられた符号化装置(符号化装置1e:図3)などが構築されてもよい。
つまり、前記第1のエンコーダ(可逆符号化部303:図3(可逆符号化部103:図1))から出力された前記符号化ピッチパラメータ(パラメータ303x:図3(パラメータ103x))から、復号ピッチ変化位置(位置704p(図9)を参照)と復号ピッチ変化比(比83pを参照)とを含む復号ピッチパラメータ(パラメータ306x)を生成する第1のデコーダ(可逆復号ブロック306)と、生成された前記復号ピッチパラメータ(パラメータ306x)に従って、ピッチ輪郭情報(情報307x(情報301xを参照))を復元するピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック307)とを備え、前記ピッチシフタ(時間伸縮ブロック304)は、復元された前記ピッチ輪郭情報(情報307x)である再構築ピッチ輪郭情報(情報307x)に従って、前記入力オーディオ信号(信号301i)のピッチ周波数(ピッチ822:図15)をシフトする符号化装置(符号化装置1e、ピッチ輪郭分析部301〜マルチプレクサ回路308)が構築されてもよい。
つまり、こうして、例えば、シフトで利用される情報として、復元された情報307xが利用されることにより、復号装置2で利用される、当該復号装置2で復元される情報と同じ情報が利用されて、より適切な(精度のよい)情報が利用できてもよい。
また、入力ステレオオーディオ信号(信号401i:図4)の各オーディオフレームにミドルサイドステレオモード(MSステレオモード)を適用するかどうかを確認して、前記MSステレオモードの適用を示すフラグ(フラグ401x)を生成するMSモードセレクタ(MS演算ブロック(MS演算部)401)と、生成された前記フラグ(フラグ401x)に従って、前記入力ステレオオーディオ信号(信号401i)をダウンミックスするダウンミキサ(ダウンミックスブロック402)とを備え、前記ピッチディテクタ(ピッチ輪郭分析ブロック403)は、生成された前記フラグ(フラグ401x)に従って、前記入力ステレオオーディオ信号(信号401i)がダウンミックスされたダウンミックス信号(信号402a)、または、前記入力ステレオオーディオ信号(信号402b)のピッチ輪郭情報(情報403x)を検出し、前記ピッチシフタ(時間伸縮ブロック406)は、前記ピッチ輪郭情報(情報403x)と前記フラグ(フラグ401x)とに従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号(信号402x(信号402aまたは402b))のピッチ周波数(ピッチ822(図15)を参照)をシフトする符号化装置(符号化装置1f、MS演算部401〜マルチプレクサ回路408)が構築されてもよい。
つまり、こうして、例えば、フラグが生成されて、生成されたフラグに従った処理がされてもよい。
これにより、MSステレオモードが利用される場合と、利用されない場合とがあるにも関わらず、利用されるか否かを示す、ユーザによる操作などがされなくても、生成されたフラグに応じた処理がされるだけで、適切な処理がされる。これにより、余計な操作が不要にされて、操作が簡単にできる。
また、入力ステレオオーディオ信号(信号601i:図6)に従って、MSステレオモードを選択し、前記MSステレオモードの適用を示すフラグ(フラグ601x)を生成するMSモードセレクタ(MS演算ブロック601)と、生成された前記フラグ(フラグ601x)に従って前記入力ステレオオーディオ信号(信号601i)をダウンミックスするダウンミキサ(ダウンミックスブロック602)と、第1のデコーダ(可逆復号ブロック608)と、ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック609)とを備え、前記ピッチディテクタ(ピッチ輪郭分析ブロック603)は、生成された前記フラグ(フラグ601x)に従って、前記入力ステレオオーディオ信号(信号601i)がダウンミックスされたダウンミックス信号(信号602a)または前記入力ステレオオーディオ信号(信号602b)のピッチ輪郭情報(情報603x)を検出し、前記第1のデコーダ(可逆復号ブロック608)は、前記第1のエンコーダ(可逆符号化ブロック605)から出力された前記符号化ピッチパラメータ(パラメータ605x)から、復号ピッチ変化位置(位置704p(図8)を参照)と復号ピッチ変化比(比83pを参照)とを含む復号ピッチパラメータ(パラメータ608x)を生成し、前記ピッチ輪郭リコンストラクタ(動的時間伸縮再構築ブロック609)は、生成された前記復号ピッチパラメータ(パラメータ608x)と、前記フラグ(フラグ601x)に従って、再構築ピッチ輪郭情報(情報609x(情報603xを参照))を復元し、前記ピッチシフタ(時間伸縮ブロック606)は、復元された前記再構築ピッチ輪郭情報(情報609x)に従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号(信号602x(信号602aまたは602b))のピッチ周波数をシフトする符号化装置(符号化装置1h、MS演算部601〜マルチプレクサ回路408)が構築されてもよい。
これにより、復号装置2で利用される情報と同じ情報が利用されて、より適切な情報が利用できることと、操作が簡単にできることとが両立できる。
また、前記ピッチシフタ(図7の時間伸縮ブロック708)を使用するかどうかを決定する比較手段(比較部、比較スキーム710)を備え、前記マルチプレクサは(マルチプレクサブロック711)、符号化データ(信号709x)と、前記比較手段から出力された符号化ピッチパラメータ(パラメータ710x)とを組み合わせることでビットストリーム(ストリーム711x)を生成する符号化装置(符号化装置1i、MS演算部701〜マルチプレクサ回路711)が構築されてもよい。
つまり、例えば、比較スキーム710により、生成される第3の信号709x(第3の信号105x(図1))と、他の信号とのうちで、より適切な方の信号(例えば、SNR(Signal to Noise Ratio:シグナルノイズレシオ、S/N比)が、より高く、ノイズがより少ない方の信号、または、データ量が、より少ない方の信号など)が、復号装置(復号装置2など)により利用される信号として選択されてもよい。
なお、他の信号は、例えば、第3の信号709xにより記録される音と同じ音が記録された、当該第3の信号709x以外の他の信号などでもよい。
つまり、より具体的には、第3の信号709xでのSNR(Signal to Noise Ratio:シグナルノイズレシオ)と、他の信号でのSNRとがそれぞれ算出されて、算出された2つのSNRに基づいて、上記の選択がされてもよい。
なお、算出されるSNRは、例えば、シフトがされる前の信号(図1の信号101iなどを参照)に対して、そのSNRの信号(第3の信号709x、他の信号)が有する差が、そのSNRの信号が有するノイズとされた際の値などでもよい。
これにより、第3の信号709xの方が適切でないときがあるにも関わらず、そのときには、他の信号が利用され、適切な信号が用いられることが維持されて、より確実に、適切な信号が利用できる。
また、符号化装置(符号化装置1)に設けられる前記ピッチパラメータジェネレータ(例えば、図1の動的時間伸縮ブロック102)であって、ピッチシフトがされる前の第1のハーモニクス構造と、された後の第2のハーモニクス構造とを比較することで、前記ピッチ輪郭(情報101x)を修正し、当該ピッチシフトを利用すべきかどうかを決定するピッチパラメータジェネレータ(動的時間伸縮ブロック102)が構築されてもよい。
なお、例えば、第1のピッチ輪郭が修正されないことにより、当該第1のピッチ輪郭でのピッチシフトを利用することが決定されると共に、当該第1のピッチ輪郭が、第2のピッチ輪郭へと修正されることにより、当該第2のピッチ輪郭でのピッチシフトを利用することが決定されてもよい。
そして、ハーモニクス構造(のデータ)は、例えば、それぞれの値が、信号の1以上のハーモニクスのうちの、その値に対応するハーモニクスの振幅を示す値である複数の値が含まれてなるデータなどでもよい。
そして、ピッチシフトがされる前の信号のハーモニクス構造と、された後の信号のハーモニクス構造とから、された後の信号の質を示す評価値が算出されてもよい。
そして、第1のピッチ輪郭のピッチシフトについて算出される評価値により示される質が、第2のピッチ輪郭のピッチシフトについて算出される評価値により示される質よりも、高い質である場合に、第1のピッチ輪郭が修正されないことが決定されると共に、より低い質である場合(以下である場合)には、修正されることが決定されてもよい。
これにより、第1のピッチ輪郭での質が、高い質でないときがあるにも関わらず、そのときには、第2のピッチ輪郭での処理がされて、ピッチシフトがされた後の信号の質が、高い質に維持され、確実に、信号の質が高くできる。
他方、実施形態の復号装置に関して、前記第1のデコーダ(可逆復号ブロック201:図2)は、分離された前記符号化ピッチパラメータ情報(パラメータ201i)から、ピッチ変化位置(位置704p(図9)を参照)と前記ピッチ変化比(比83pを参照)とを含む前記復号ピッチパラメータ(パラメータ202i:例えば、ピッチ変化位置を特定する第1のパラメータ202iと、ピッチ変化比を特定する第2のパラメータ202iとの2つのパラメータ202i)を生成する復号装置(復号装置2c)が構築されてもよい。
そして、当該復号装置(図5の復号装置2g)は、ピッチシフトされたステレオオーディオ信号(信号503ibL等:図5)の前記符号化データ(信号505i:図5)を含む前記ビットストリーム(ストリーム506i)を復号し、MSモードディテクタ(MSモード検出ブロック504)を備え、前記第2のデコーダ(変換デコーダブロック505)は、分離された前記符号化データ(信号505i)を復号して、ピッチシフトされた前記オーディオ信号(信号503ibL等)と、MSモード符号化情報(情報504i)とを生成し、前記MSモードディテクタ(MSモード検出ブロック504)は、MSモードが有効にされているかどうかを、生成された前記MSモード符号化情報(情報504i)に従って検出し、MSモードが有効にされるべきかどうかを示すMSモードフラグ(フラグ504F:図5)を生成し、前記ピッチ輪郭リコンストラクタ(動的時間伸縮再構築部502)は、前記第1のデコーダ(可逆復号ブロック501)から出力された、生成された前記復号ピッチパラメータ(パラメータ502i)と、生成された前記MSモードフラグ(フラグ504F)とに従って、ピッチ輪郭情報(情報503ia)を復元する復号装置(復号装置1g、可逆復号部501〜マルチプレクサ回路506)が構築されてもよい。
これにより、MSモードが有効にされているどうかが検出され、有効にされているかどうかを示す、ユーザによる余計な操作がされなくても済んで、操作が、より簡単にできる。
なお、例えば、ブロックとは、いわゆる機能ブロックなどをいう。
符号化装置1および復号装置2において、上述の各効果が生じ、これら符号化装置1等における動作が、より適切な動作にできる。
これにより、ひいては、これら符号化装置1等の生産、使用などをする産業分野において、産業の発達に貢献できる。
1 符号化装置
2 復号装置
2S システム
101 ピッチ輪郭分析部
102 動的時間伸縮部
103 可逆符号化部
104 時間伸縮部
105 変換エンコーダ
106 マルチプレクサ
201 可逆復号部
202 動的時間伸縮再構築部
203 時間伸縮部
204 変換デコーダ
205 デマルチプレクサ