JPWO2011048815A1

JPWO2011048815A1 - オーディオ符号化装置、復号装置、方法、回路およびプログラム

Info

Publication number: JPWO2011048815A1
Application number: JP2011537144A
Authority: JP
Inventors: 石川　智一; 智一石川; 則松　武志; 武志則松; センチョンコック; ゾウフアン; ジョンハイシャン
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-10-21
Filing date: 2010-10-21
Publication date: 2013-03-07
Anticipated expiration: 2030-10-21
Also published as: EP2492911B1; JP5530454B2; US20110268279A1; EP2492911A1; WO2011048815A1; CN102257564A; CN102257564B; EP2492911A4; US8886548B2

Abstract

情報を検出するピッチ輪郭分析部(１０１）と、検出された前記情報に基づいて、当該範囲（８６ａ）のピッチ変化比のセント数（cent）の絶対値は、４２以上である範囲（８６ａ）を含む範囲（８６）の変域であるピッチ変化比(Tw_ratio：図１８）を生成する動的時間伸縮部(１０２）と、生成されたピッチパラメータ（１０２ｘ）を符号化する第１の可逆符号化部(１０３）と、前記情報に従って、信号のピッチをシフトする時間伸縮部(１０４）と、シフトがされた信号（１０４ｘ）を符号化する第２のエンコーダとを備える符号化装置(１)が構築される。

Description

本発明は、概して、変換オーディオ符号化システムに関し、特に、時間伸縮技術を用いて、入力オーディオ信号のピッチ周波数をシフトすることで、符号化効率および音質を向上させる変換オーディオ符号化システムに関する。なお、当該オーディオ符号化システムは、オーディオだけでなく、スピーチ信号にも適用でき、携帯電話や電話・テレビ会議にも、使用できる。

変換符号化技術は、オーディオ信号を、効率的に符号化するように設計されている。人間の発話では、信号の基本的周波数が、時々変化する。これにより、スピーチ信号のエネルギーは、広範な周波数帯域に拡散する。そして、特に、低ビットレートにおいては、ピッチが変化するスピーチ信号を、変換コーデックによって、符号化することは、効率的ではない。なお、例えば、時間伸縮技術は、先行技術［３］、［４］において、ピッチ変化の影響を補うために用いられている。

図１０は、基本的周波数をシフトするという概念の例を示す図である。

時間伸縮技術は、ピッチシフトを実現するために用いられる。図１０の（ａ）欄のスペクトラムは、元のスペクトラムであり、図１０の（ｂ）欄のスペクトラムは、ピッチシフト後のスペクトラムである。

図１０の（ｂ）欄では、基本的周波数が、２００Ｈｚから１００Ｈｚにシフトされている。こうして、次フレームのピッチを、先行フレームのピッチに合わせるようにシフトすることで、ピッチが安定する。

図１１は、ピッチシフト後のスペクトラムを示す図である。

したがって、信号エネルギーが、図１１に示すように集中する。

図１１の（ａ）欄の信号は、スイープ信号である。そして、図１１の（ｂ）欄の信号は、ピッチシフト後の信号であり、（ｂ）欄でのピッチは、一定になる。

一方、図１１の（ｃ）欄の２つのスペクトラムは、信号（ａ）および信号（ｂ）のスペクトラムである。図１１の（ｃ）欄において、信号（ｂ）のエネルギーは、狭帯域に制限されるのが示される。

ここで、上述のようなピッチシフトは、再サンプリング方法を用いて達成される。安定したピッチを維持するために、再サンプリングレートが、ピッチ変化レートに従って変化する。そして、ピッチトラッキングアルゴリズムを適用することで、入力フレームのピッチ輪郭が得られる。

図８は、１オーディオフレームのセグメント化を説明する図である。

図８に示されるように、フレームは、ピッチトラッキングのため、小さなセクションにセグメント化される。なお、ここで、隣接セクションは、重なっていてもよい。つまり、例えば、少なくとも１つの組み合わせにおいては、その組み合わせの、互いに隣接する２つのセクションのうちの一方のセクション（の一部）が、他方のセクション（の一部）に重なってもよい。

そして、従来例としては、現在のところ、自己相関に基づくピッチトラッキングアルゴリズム［１］、および、周波数領域に基づくピッチ検出方法［２］がある。

各セクションは、そのセクションに対応するピッチ値を有する。

図１５は、ピッチ輪郭の算出の処理を示す図である。

図１５の（ａ）欄の信号は、時変ピッチを有する信号である。信号の１セクションから、１つのピッチ値が算出される。ピッチ輪郭は、ピッチ値の連鎖である。

時間伸縮の間、再サンプリングレートは、ピッチ変化レートに比例している。

ピッチ変化情報は、ピッチ輪郭から抽出される。

なお、このピッチ変化レートの測定には、セントおよび半音が頻繁に用いられる。

図１２は、セントおよび半音の長さを示す図である。セントは、隣接ピッチのピッチ比から算出される。

ピッチ変化レートに従って、再サンプリングが、時間領域信号に適用される。他のセクションのピッチが、参照ピッチにシフトされ、安定したピッチを得る。例えば、次のセクションのピッチが、先行ピッチよりも高ければ、再サンプリングレートは、それらの２ピッチの間の、セントの差分に比例して、より低く設定される。そうでなければ、サンプリングレートは、より高くなければならない。

なお、ここで、音声再生速度を調整可能な記録再生装置があるとして、高音の音の再生速度を下げることで、音域が、低周波数にシフトされる。これは、ピッチ変化レートに比例して、信号を再サンプリングする概念に似ている。

図１３および図１４は、時間伸縮方式を組み入れた符号化システムを示す。

図１３は、エンコーダ（エンコーダ１３Ａ）における時間伸縮のブロック図である。

図１４は、デコーダ（デコーダ１４Ａ）における時間伸縮のブロック図である。

変換符号化の前に、時間領域信号が時間伸縮される。デコーダにおける逆時間伸縮において、ピッチ情報が必要である。よって、ピッチ比は、エンコーダで符号化されなければならない。

そして、先行技術において、これらのピッチ比情報の符号化に、小さな固定テーブルが用いられている。ピッチ比の符号化には、小さなビットが用いられる。しかしながら、信号のピッチ変化レートが大きいときに、小さなテーブルでは、限界があり、時間伸縮の性能は落ちる。

しかしながら、大きなテーブルが用いられる際には、より多くのビットを使用し、変換符号化のために、十分なビットが残らないために、音質も落ちる。現在のところ、固定テーブルを用いた時間伸縮の効果は限られている。
なお、上述された処理（符号化など）は、後で詳しく説明されるように、例えば、将来定められることが想定される、ＩＳＯ（International Organization for Standardization）等の規格における処理と同じ処理である。

［１］ＭｉｌａｎＪｅｌｉｎｅｋ， "ＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｉｎｇＡｄｖａｎｃｅｓｉｎＶＭＲ−ＷＢＳｔａｎｄａｒｄ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１５，Ｎｏ．４２００７年５月［２］ＸｕｅｊｉｎｇＳｕｎ， "ＰｉｔｃｈＤｅｔｅｃｔｉｏｎａｎｄＶｏｉｃｅＱｕａｌｉｔｙＡｎａｌｙｓｉｓＵｓｉｎｇＳｕｂｈａｒｍｏｎｉｃ−ｔｏ−ＨａｒｍｏｎｉｃＲａｔｉｏ "，ＩＥＥＥＩＣＡＳＳＰ，３３３−３３６，Ｏｒｌａｎｄｏ２００２年［３］ＢｅｒｎｄＥｄｌｅｒ， "ＡＴｉｍｅ−ｗａｒｐｐｅｄＭＤＣＴＡｐｐｒｏａｃｈＴｏＳｐｅｅｃｈＴｒａｎｓｆｏｒｍＣｏｄｉｎｇ"，ＡＥＳ１２６ｔｈＣｏｎｖｅｎｔｉｏｎ，Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ２０００年５月

［４］米国特許出願公開第２００８／０００４８６９（Ａ１）号明細書（ＪｕｅｒｇｅｎＨｅｒｒｅ， “ＡｕｄｉｏＥｎｃｏｄｅｒ，ＡｕｄｉｏＤｅｃｏｄｅｒａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｏｒＨａｖｉｎｇａＤｙｎａｍｉｃａｌｌｙＶａｒｉａｂｌｅＷａｒｐｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ”）

時間伸縮を用いる動機は、１フレーム内のピッチを安定させ、符号化効率の改善を達成することである。時間伸縮は、ある程度、ピッチトラッキングの精度に依存する。

しかしながら、ピッチ輪郭検出の課題は、信号の振幅および軌道の変化により、困難が生じることがあることである。つまり、平滑化や、微調整閾値パラメータのような、ポスト処理方式が、ピッチ検出精度の改善のために、いくつか導入されているが、それらの方式は、特定のデータベースに基づいている。

時間伸縮が、不正確なピッチ輪郭に基づいて適用されれば、音質が落ち、時間伸縮情報の送信に用いられたビットが無駄になる。したがって、検出されたピッチ輪郭を、無分別に指針としないような時間伸縮を設計する必要がある。

現在のところ、先行技術の時間伸縮における、従来より利用可能な技術としては、ピッチ輪郭情報を符号化する効率的な方法を欠いている。

ここで、先行技術において、ピッチ輪郭を表現するためには、固定テーブルが用いられている。

そして、小さなテーブルは、ピッチが大きく変化する状況には、不十分であるが、より大きなテーブルは、より大きなビットの使用を必要とする。これにより、特に、低ビットレートの符号化において、コスト高となる可能性がある。これは、時間伸縮パラメータの送信に、ビットを使用することで、符号化効率を改善することの代償である。

したがって、時間伸縮パラメータを、より効率的に符号化する方法があれば、節約したビットを、変換符号化に用いることができることから、音質を向上させることができ、かつ、ピッチ変化の大きい信号に対応することができる。

時間伸縮方式を、変換符号化システムに取り入れる簡易な方法は、時間伸縮方式を、直接的に、変換符号化に連結させることである。先行技術において、時間伸縮方式は、変換符号化から独立している。時間伸縮の目的は、変換符号化の効率の向上であることから、変換符号化システムから、何らかの符号化情報を用いることは、時間伸縮の役に立つ。現在の時間伸縮を用いた変換符号化構造は、改善の必要がある。

また、他の目的は、ピッチ変化比（図１８の比８８を参照）の変域が、適切な変域（範囲８６を参照）にできる符号化装置、復号装置等を提供することを含む。また、他の目的は、適切な処理が、より広い範囲の変域のピッチ変化比（図１８の比８８を参照）のときに行われて、音質が高くできる符号化装置等を提供することを含む。また、他の目的は、ピッチ（図１６のピッチ８２２、比８３、図１８の比８８等を参照）が符号化された符号（図１８の符号９０を参照）のデータ（図２２のデータ９０Ｌを参照）のデータ量（例えば平均量など）が小さくできる符号化装置等を提供することを含む。そして、ひいては、他の目的は、将来定められる、ＩＳＯ等の規格における処理を行い、かつ、比較的適切に処理をする符号化装置等を提供することを含む。

本発明の符号化装置は、入力オーディオ信号のピッチ輪郭情報を検出するピッチディテクタと、検出された前記ピッチ輪郭情報に基づいて、当該ビット変化比（図１８のTw_ratioを参照）の変域（範囲８６を参照）は、当該範囲（範囲８６ａ参照）のピッチ変化比（Tw_ratio：１．０４１６、１．０２９３、０．９７７２、０．９７１５、０．９６０４）のセント数（cent：６０、５０、−４０、−５０、−６０）の絶対値は、４２以上である範囲（範囲８６ａ）を含む範囲（範囲８６）の変域（範囲８６）であるピッチ変化比（Tw_ratio、Tw_ratio_index：図１８）を含むピッチパラメータを生成するピッチパラメータジェネレータと、生成された前記ピッチパラメータを符号化する第１のエンコーダと、前記ピッチ輪郭情報に従って、前記入力オーディオ信号のピッチ周波数をシフトするピッチシフタと、前記ピッチシフタから出力された、シフトがされたオーディオ信号を符号化する第２のエンコーダと、前記第１のエンコーダから出力された符号化ピッチパラメータと、前記第２のエンコーダから出力された、前記ピッチシフタから出力された前記オーディオ信号が符号化されたデータとを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリームを生成するマルチプレクサとを備える符号化装置である。

つまり、具体的には、前記第１のエンコーダは、前記ピッチパラメータ（図１８の比８８を参照）を、当該ピッチパラメータが、比較的小さな絶対値のセント数（図１８のcentを参照）のピッチ変化比のピッチパラメータ（比８８ａを参照）である場合には、比較的短い符号長の符号の符号化ピッチパラメータ（符号９０ａを参照）へと符号化し、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータ（比８８ｂを参照）である場合には、比較的長い符号長の符号の符号化ピッチパラメータ（符号９０ｂを参照）へと符号化する符号化装置が構築される。

本発明の復号装置は、ピッチシフトされたオーディオ信号の符号化データと、符号化ピッチパラメータ情報とを含むビットストリームを復号する復号装置であって、復号を行う前記ビットストリームから、当該ビットストリームに含まれる前記符号化データと、前記符号化ピッチパラメータ情報とをそれぞれ分離するデマルチプレクサと、分離された前記符号化ピッチパラメータ情報から、当該ビット変化比（図１８のTw_ratioを参照）の変域（範囲８６を参照）は、当該範囲（範囲８６ａ）のピッチ変化比（Tw_ratio：１．０４１６、１．０２９３、０．９７７２、０．９７１５、０．９６０４）のセント数（cent：６０、５０、−４０、−５０、−６０）の絶対値は、４２以上である範囲（範囲８６ａ）を含む範囲（範囲８６）の変域（範囲８６）であるピッチ変化比（Tw_ratio、Tw_ratio_index：図１８）を含む復号ピッチパラメータを生成する第１のデコーダと、生成された前記復号ピッチパラメータに従って、ピッチ輪郭情報を復元するピッチ輪郭リコンストラクタと、分離された前記符号化データを復号して、ピッチシフトされた前記オーディオ信号を生成する第２のデコーダと、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報に従って、ピッチシフトされた前記オーディオ信号を、元のオーディオ信号に変換するオーディオ信号リコンストラクタとを備える復号装置である。

つまり、具体的には、前記第１のデコーダは、分離された前記符号化ピッチパラメータ情報を、当該符号化ピッチパラメータ情報が、比較的短い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的小さな絶対値のセント数のピッチ変化比のピッチパラメータへと復号し、比較的長い符号長の符号の符号化ピッチパラメータ情報である場合には、比較的大きな絶対値のセント数のピッチ変化比のピッチパラメータへと復号する復号装置が構築される。

こうして、例えば、符号化装置と、復号装置とを含んでなる、次のような信号処理システムが構築されてもよい（実施形態の冒頭の説明等を併せて参照されたい）。

つまり、当該信号処理システムにおいて、前記符号化装置は、前記ピッチシフタが、第１の信号から、当該第１の信号のピッチが、予め定められたピッチへとシフトされた第２の信号を生成し、前記第２のエンコーダが、生成された前記第２の信号を、第３の信号へと符号化し、前記ピッチパラメータジェネレータが、シフトがされる前の前記第１の信号の前記ピッチを特定するピッチ変化比を算出し、前記第１のエンコーダが、算出された当該ピッチ変化比を符号へと符号化する符号化装置である。

そして、前記復号装置は、前記第２のデコーダが、前記第１の信号から生成された、当該第１の信号の前記ピッチが前記予め定められたピッチへとシフトされた前記第２の信号が符号化された前記第３の信号を、前記第２の信号へと復号し、前記オーディオ信号リコンストラクタが、復号された前記第２の信号から前記第１の信号を生成し、前記第１のデコーダが、前記符号を、前記ピッチ変化比へと復号し、前記ピッチ輪郭リコンストラクタが、復号された前記ピッチ変化比により特定される、当該ピッチの前記第１の信号が生成される前記ピッチを算出する復号装置である。

そして、前記ピッチ変化比が符号化された、当該ピッチ変化比へと復号される前記符号は、当該符号に対応する前記ピッチ変化比が、０セントの音程の差の２つのピッチの間のピッチ変化比に対して、比較的小さな差を有する第１のピッチ変化比である場合には、比較的短い符号長の第１の符号であり、比較的大きな差を有する第２のピッチ変化比である場合には、比較的長い符号長の第２の符号である。

そして、シフトがされた前記第２の信号が符号化された前記第３の信号が、前記符号化装置で生成され、前記復号装置で復号される動作は、シフトがされる前の前記第１の信号の前記ピッチの前記ピッチ変化比が、０セントの前記ピッチ変化比に対して有する差が、閾値以下の場合にのみ行われ、前記閾値よりも大きい場合には行われず、当該閾値は、４２セント未満の音程での値ではなく、４２セント以上に大きな音程での値である。

すなわち、上述の説明の課題で述べた通り、ピッチ輪郭が不正確であると、時間伸縮後の音質の低下につながる可能性がある。

そこで、この課題を克服するために、動的時間伸縮方式を提案する。それは、ハーモニクス構造も考慮した時間伸縮方式である。

時間伸縮の間、ピッチシフトと共に、ハーモニクスが修正されるので、時間伸縮の間の信号のハーモニクス構造を考慮する必要がある。

そこで、提案のハーモニクス時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することにより、音質を改善する。

提案の動的時間伸縮は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の効率を評価し、対象フレームに、時間伸縮を利用するかどうかを決定する。それは、不正確なピッチ輪郭によってもたらされる不正確性を取り除く。

先行技術において、ピッチ輪郭情報は、圧縮されずに、直接、デコーダに送られる。動的時間伸縮において、時間伸縮パラメータを、より効率的に符号化する方法を提案する。時間伸縮のために、ピッチ輪郭を統計的に分析した後に、信号フレーム内で、ピッチが変化する僅かな位置においてのみ、時間伸縮が有効にされていることが分かる。

したがって、時間伸縮が適用されている部分でのみ情報を符号化すると、より効率的である。

また、ピッチ変化値の発生する確率が一様でないことから、時間伸縮パラメータの符号化に、可逆符号化を用いることで、ビットを節約できる。

提案の動的時間伸縮では、時間伸縮が適用される位置の情報と、その位置の時間伸縮値とを用いる。先行技術に記載のように、固定テーブルを用いて、ピッチ輪郭全体を符号化することで、ビットが節約される。

提案の動的時間伸縮は、また、広範囲の時間伸縮値に対応する。なお、対応するとは、適切な動作ができることなどを意味する。節約されたビットが、変換符号化に用いられ、かつ、広範囲の時間伸縮値により、音質が改善される。

一方、多くの変換符号化システムにおいて、ステレオオーディオ信号の符号化に、ＭＳステレオモード（Mid Side Stereo Mode）を使用している。変換符号化システムからのＭＳモード情報を使用することで、時間伸縮の性能を改善する、新たな構造を提案する。左右のチャネルが、互いに類似した特性を有するとき、左右の信号に、同じ時間伸縮パラメータを使用すると、より効率的である。左右のチャネルが大きく異なるときには、時間伸縮を共用すると、符号化効率が下がる場合がある。よって、提案の変換符号化構造における時間伸縮に、ＭＳモードを導入する。

なお、例えば、当該復号装置により受信される前記ビットストリーム（ビットストリーム１０６ｘ、２０５ｉ等を参照）は、１つのフレーム（図１６のフレーム８４Ｆを参照）における複数の位置（セクション８４１〜８４Ｍを参照）のうちで、当該ピッチ変化位置（図９の位置７０４ｐを参照）における信号のみが前記オーディオ信号リコンストラクタによりTimeWarp（ピッチシフト）され、他の位置の信号はTimeWarpされないピッチ変化位置（位置７０４ｐを参照）を特定する位置情報（データ１０２ｍ：図９）を含む復号装置が構築されてもよい。

本発明において説明する時間伸縮方式では、オーディオ信号のハーモニクス構造を分析した情報に基づいて、ピッチ輪郭を修正し、時間伸縮処理の前後のハーモニクス構造を比較することにより、時間伸縮の効率を評価する。このことで、対象オーディオフレームに、時間伸縮を利用するべきかどうかを決定するものである。その処理により、検出されたピッチ輪郭情報の不正確性によりもたらされる音質劣化を防ぐことができ、音質が高くできる。さらに、本発明の時間伸縮技術では、変換符号化からのＭＳステレオモード情報を利用することで、音質およびオーディオ符号化システムの符号化効率を改善できる。

ピッチ変化比（図１８の比８８を参照）の変域が、適切な変域（範囲８６を参照）にできる。

適切な処理が、より広い範囲の変域のピッチ変化比（図１８の比８８を参照）のときに行われて、音質が高くできる。

ピッチ（図１６のピッチ８２２、比８３、図１８の比８８等を参照）が符号化された符号（図１８の符号９０を参照）のデータ量（例えば、データ量の平均等）が小さくできる。

図１は、動的時間伸縮を用いるエンコーダのブロック図である。図２は、動的時間伸縮を用いるデコーダのブロック図である。図３は、変更された動的時間伸縮デコーダを用いるデコーダのブロック図である。図４は、ＭＳモードを利用する動的時間伸縮を用いるエンコーダのブロック図である。図５は、ＭＳモードを利用する動的時間伸縮を用いるデコーダのブロック図である。図６は、ＭＳモードを利用する変更された動的時間伸縮を用いるエンコーダのブロック図である。図７は、閉ループ動的時間伸縮を用いるエンコーダのブロック図である。図８は、１オーディオフレームのセグメント化を説明する図である。図９は、ベクトルＣの算出を説明する図である。図１０は、ピッチシフトを説明する図である。図１１は、ピッチシフト後のスペクトラムである。図１２は、セントおよび半音を説明する図である。図１３は、エンコーダにおける時間伸縮のブロック図である。図１４は、デコーダにおける時間伸縮のブロック図である。図１５は、ピッチ輪郭の算出を説明する図である。図１６は、対数目盛に基づくスペクトラムである。図１７は、ハーモニクスを利用するピッチシフトを説明する図である。図１８は、表を示す図である。図１９は、先行例での表を示す図である。図２０は、符号化装置および復号装置を示す図である。図２１は、処理の流れを示す流れ図である。図２２は、先行例と本装置とのそれぞれでのデータを示す図である。

以下、説明を参照して、本発明を実施するための形態が説明される。

実施の形態のシステム（図２０のシステム２Ｓ）に設けられる、実施の形態の符号化装置（符号化装置１）は、入力オーディオ信号（信号１０１ｉ（図１）：図１１の信号８１１を参照）の（のピッチ（例えばピッチ８２２（図１５））を特定する）ピッチ輪郭情報（情報（ピッチ）１０１ｘ、ピッチ８２２（図１５））を検出するピッチディテクタ（ピッチ輪郭分析ブロック（ピッチ輪郭分析部）１０１）と、検出された前記ピッチ輪郭情報（情報１０１ｘ）に基づいて、当該ビット変化比（Tw_ratio（図１８）、比８３（図１５）、比８８（図１８））の変域（範囲８６：図１８）は、当該範囲（範囲８６ａ）のピッチ変化比（Tw_ratio：１．０４１６、１．０２９３、０．９７７２、０．９７１５、０．９６０４）のセント数（cent：６０、５０、−４０、−５０、−６０）の絶対値は、４２以上である範囲（範囲８６ａ）を含む範囲（範囲８６）の変域（範囲８６）であるピッチ変化比（Tw_ratio：図１８）を含むピッチパラメータ（パラメータ（ピッチ変化比）１０２ｘ、比８８（図１８））を生成するピッチパラメータジェネレータ（動的時間伸縮ブロック１０２）と、生成された前記ピッチパラメータ（パラメータ１０２ｘ）を（符号９０（図１８）へと）符号化する第１のエンコーダ（可逆符号化部１０３）と、前記ピッチ輪郭情報（情報（ピッチ）１０１ｘ、ピッチ８２２）に従って、前記入力オーディオ信号（信号（第１の信号）１０１ｉ）のピッチ周波数（ピッチ８２２：図１５）を（参照ピッチ８２ｒ（図１５）へと）シフトするピッチシフタ（時間伸縮ブロック１０４）と、前記ピッチシフタから出力された、シフトがされたオーディオ信号（第２の信号１０４ｘ）を（、符号化された第３の信号１５０ｘへと）符号化する第２のエンコーダ（変換エンコーダブロック１０５）と、前記第１のエンコーダ（可逆符号化ブロック１０３）から出力された符号化ピッチパラメータ（パラメータ１０３ｘ、符号９０）と、前記第２のエンコーダ（変換エンコーダブロック１０５）から出力された、前記ピッチシフタから出力された前記オーディオ信号（信号（第２の信号）１０４ｘ）が符号化されたデータ（第３の信号１０５ｘ）とを組み合わせることで、前記符号化ピッチパラメータと当該データとが含まれるビットストリーム（ストリーム１０６ｘ）を生成するマルチプレクサ（マルチプレクサブロック（マルチプレクサ回路）１０６）とを備える符号化装置（符号化装置１）である。

なお、１セントは、例えば、半音を構成する１００セントの音程９０ｊ（図１２）の、１００分の１だけの音程（２つのピッチ（図１５の２つのピッチ８２１、８２２を参照）の間の差）をいい、換言すれば、１オクターブの音程の、１２００分の１だけの音程をいう。

なお、例えば、生成されるピッチパラメータの全体が、ピッチ変化比でもよいし、一部が、ピッチ変化比でもよい。そして、一部等がピッチ変化比である、このようなピッチパラメータは、生成される複数のピッチパラメータのうちの、１つでもよい。

つまり、例えば、前記第１のエンコーダ（可逆符号化１０３）は、前記ピッチパラメータ（パラメータ１０２ｘ（図１）、比８８（図１８））を、当該ピッチパラメータ（比８８）が、比較的小さな絶対値（０）のセント数（±０：図１８のcentを参照）の（音程の幅の２つのピッチ（ピッチ８２１、８２２（図１５）を参照）での）ピッチ変化比（例えば１．０）のピッチパラメータ（比８８ａ）である場合には、比較的短い符号長（長さ１：図１８のbitsを参照）の符号（符号９０ａ：「０」）の符号化ピッチパラメータ（符号９０ａ）へと符号化し、比較的大きな絶対値（５０）のセント数（＋５０）のピッチ変化比（１．０２９３：符号８８ｂ）のピッチパラメータ（符号８８ｂ）である場合には、比較的長い符号長（「１１１１００」での長さ６）の符号（符号９０ｂ：「１１１１００」）の符号化ピッチパラメータ（符号９０ｂ）へと符号化する符号化装置（符号化装置１）が構築される。

そして、実施の形態の復号装置（図２の復号装置２）は、ピッチシフトされたオーディオ信号（第２の信号２０３ｉｂ：図２）の符号化データ（第３の信号）２０４ｉと、符号化ピッチパラメータ情報（パラメータ２０１ｉ、符号９０）とを含むビットストリーム（ストリーム２０５ｉ（ストリーム１０６ｘ））を復号する復号装置（復号装置２）であって、復号を行う前記ビットストリーム（ストリーム２０５ｉ）から、当該ビットストリームに含まれる前記符号化データ（図２の第３の信号２０４ｉ（図１の第３の信号１０５ｘ））と、前記符号化ピッチパラメータ情報（パラメータ２０１ｉ、符号９０）とをそれぞれ分離するデマルチプレクサ（マルチプレクサブロック２０５）と、分離された前記符号化ピッチパラメータ情報（パラメータ２０１ｉ、符号９０）から、当該ビット変化比（比８８、Tw_ratio_index、Tw_ratio：図１８）の変域（範囲８６）は、当該範囲（８６ａ）のピッチ変化比（Tw_ratio：１．０４１６、１．０２９３、０．９７７２、０．９７１５、０．９６０４）のセント数（cent：６０、５０、−４０、−５０、−６０）の絶対値は、４２以上である範囲（範囲８６ａ）を含む範囲（範囲８６）の変域（範囲８６）であるピッチ変化比（比８８、Tw_ratio_index、Tw_ratio：図１８）を含む復号ピッチパラメータ（パラメータ２０２ｉ、符号９０）を生成する第１のデコーダ（可逆復号ブロック２０１）と、生成された前記復号ピッチパラメータ（パラメータ２０２ｉ、符号９０）に従って、ピッチ輪郭情報（情報２０３ｉａ、ピッチ８２２）を復元するピッチ輪郭リコンストラクタ（動的時間伸縮再構築ブロック２０２）と、分離された前記符号化データ（信号２０４ｉ、第３の信号２０４ｉ）を復号して、ピッチシフトされた前記オーディオ信号（信号（第２の信号）２０３ｉｂ）を生成する第２のデコーダ（変換デコーダブロック２０４）と、復元された前記ピッチ輪郭情報である再構築ピッチ輪郭情報（情報２０３ｉａ、ピッチ８２２）に従って、ピッチシフトされた前記オーディオ信号（信号（第２の信号）２０３ｉｂ）を、（前記再構築ピッチ輪郭情報により特定されるピッチを有する、）元のオーディオ信号（第２の信号２０３ｘ）に変換するオーディオ信号リコンストラクタ（時間伸縮ブロック２０３）とを備える復号装置（復号装置２）である。

つまり、例えば、前記第１のデコーダ（可逆復号ブロック２０１：図２）は、分離された前記符号化ピッチパラメータ情報（パラメータ２０１ｉ（図２）、符号９０（図１８））を、当該符号化ピッチパラメータ情報（符号９０（図１８））が、比較的短い符号長（長さ１：図１８のbitsを参照）の符号（符号９０ａ：「０」）の符号化ピッチパラメータ情報（符号９０ａ）である場合には、比較的小さな絶対値（０）のセント数（０：図１８のcentを参照）のピッチ変化比（１．０、比８８ａ）のピッチパラメータ（比８８ａ）へと復号し、比較的長い符号長（符号９０ｂ「１１１１００」での長さ６）の符号（符号９０ｂ：「１１１１００」）の符号化ピッチパラメータ情報（符号９０ｂ）である場合には、比較的大きな絶対値（５０）のセント数（５０）のピッチ変化比（１．０２９３：比８８ｂ）のピッチパラメータ（比８８ｂ）へと復号する復号装置（復号装置２）が構築される。

つまり、例えば、符号化装置（符号化装置１（図１、図２０など）、ステップＳ１（図２１）等を参照）と、復号装置（復号装置２、ステップＳ２等を参照）とを含んでなる、次のような信号処理システム（信号処理システム２Ｓ）が構築されてもよい。

つまり、当該信号処理システムにおいて、前記符号化装置は、例えば、前記ピッチシフタ（時間伸縮部１０４）が、第１の信号（第１の信号１０１ｉ、入力オーディオ信号（先述）：図１）から、当該第１の信号のピッチ（ピッチ８２２：図１５）が、予め定められたピッチ（参照ピッチ８２ｒ）へとシフトされた第２の信号（第２の信号１０４ｘ、シフトがされたオーディオ信号（先述））を生成し、前記第２のエンコーダ（変換エンコーダ１０５）が、生成された前記第２の信号（第２の信号１０４ｘ）を、第３の信号（第３の信号１０５ｘ、ピッチシフタから出力された前記オーディオ信号が符号化されたデータ（先述））へと符号化し、前記ピッチパラメータジェネレータ（ピッチパラメータ生成部（動的時間伸縮ブロック）１０２）が、シフトがされる前の前記第１の信号（第１の信号１０１ｉ）の前記ピッチ（ピッチ８２２）を特定するピッチ変化比（パラメータ１０２ｘ（図１）、比８８（図１８）、Tw_ratio、Tw_ratio_index）を算出し、前記第１のエンコーダ（可逆符号化部１０３）が、算出された当該ピッチ変化比を符号（符号９０（図１８）、パラメータ（符号化パラメータ、符号化ピッチパラメータ）１０３ｘ（図１））へと符号化する符号化装置（符号化装置１：符号化装置１ａ、１ｅ、１ｆ、１ｈ、１ｉ（図１、図３、図４、図６、図７など））などである。

そして、前記復号装置は、例えば、前記第２のデコーダ（変換デコーダ２０４）が、前記第１の信号（第１の信号２０３ｘ（第１の信号１０１ｉ））から生成された、当該第１の信号（第１の信号２０３ｘ）の前記ピッチ（ピッチ８２２：図１５）が前記予め定められたピッチ（参照ピッチ８２ｒ）へとシフトされた前記第２の信号（第２の信号２０３ｉｂ（第２の信号１０４ｘ））が符号化された前記第３の信号（第３の信号２０４ｉ（第３の信号１０５ｘ））を、前記第２の信号（第２の信号２０３ｉｂ（第２の信号１０４ｘ））へと復号し、前記オーディオ信号リコンストラクタ（時間伸縮部２０３）が、復号された前記第２の信号（第２の信号２０３ｉｂ）から前記第１の信号（第１の信号２０３ｘ）を生成し、前記第１のデコーダ（可逆復号部２０１）が、前記符号（パラメータ２０１ｉ（パラメータ１０３ｘ）、符号９０（図１８））を、前記ピッチ変化比（パラメータ２０２ｉ（パラメータ１０２ｘ）、比８８（比８８の番号）、Tw_ratio、Tw_ratio_index）へと復号し、前記ピッチ輪郭リコンストラクタ（２０２）が、復号された前記ピッチ変化比（比８８）により特定される、当該ピッチ（ピッチ８２２）の前記第１の信号（第１の信号２０３ｘ）が生成される前記ピッチ（ピッチ８２２）を算出する復号装置（復号装置２：復号装置２ｃ、２ｇ（図２、図５など））などである。

なお、この種の信号処理システムの技術開発は、現在、進められつつある途中であり（非特許文献１〜４などを参照）、このような信号処理システムについては、よく分かっていないことが多い。

つまり、例えば、そもそも、多くの技術者は、このような信号処理システムを知らず、その技術開発に着手する段階にさえ到っていないと考えられる。

つまり、将来、このような信号処理システムの規格（ＩＳＯ（International Organization for Standardization）における規格など）が定められることが考えられる。そして、定められた後において、比較的広く利用されることが期待される。

例えば、本信号処理システムは、将来定められる規格における信号処理システムである。

このような信号処理システムによれば、例えば、シフトがされた第２の信号（第２の信号１０４ｘ、２０３ｉｂ）が第３の信号（第３の信号１０５ｘ、２０４ｉ）へと符号化され、符号化された第３の信号が、当該第２の信号へと復号される。これにより、符号化装置から復号装置への通信などの処理がされる、音のデータ（第３の信号）が、データ量が小さいデータなどの、より適切なデータにできる。

なお、これにより、ひいては、音のデータが、このように小さいにも関わらず、音質が下げられる必要がなく、高い音質で足りて、音質が高くできる。

しかも、ピッチ変化比が算出されて、第３の信号から復号された第２の信号のシフトがされるのに際して、算出されたピッチ変化比により特定されるピッチへのシフトがされて、確実に、シフトがされる、シフト先のピッチが、適切なピッチにできる。

しかも、算出されたピッチ変化比が符号へと符号化され、符号化された符号が、ピッチ変化比へと復号されて、ピッチ変化比のデータ量よりも小さいデータ量である符号について、通信などの処理がされて、処理がされる、ピッチのデータ（ピッチ変化比が符号化された符号（符号９０））のデータ量も小さくできる。

そして、このような信号処理システム（符号化装置１、復号装置２）において、前記ピッチ変化比（比８８）が符号化された、当該ピッチ変化比（比８８）へと復号される前記符号（符号９０）は、当該符号（符号９０）に対応する前記ピッチ変化比（比８８）が、０セントの音程の差の２つのピッチの間のピッチ変化比（１．０の比８８ｘ：図１８）に対して、比較的小さな差（０セント）を有する第１のピッチ変化比（比８８ａ）である場合には、比較的短い符号長（長さ１）の第１の符号（符号９０ａ）であり、比較的大きな差（５０セント）を有する第２のピッチ変化比（比８８ｂ）である場合には、比較的長い符号長の第２の符号（符号９０ｂ）等である。

つまり、上記された差が、小さな差である場合には、その差のピッチ変化比（比８８ａ）が出現する出現頻度が高く、大きな差である場合には、その差のピッチ変化比（比８８ｂ）の出現頻度が低いことが多いことがあるのに、発明者は、実験を通じて気付いた。

そこで、こうして、差（０セントの比８ｘに近いか否か（どの程度離れているか））に応じた可変長符号化が利用されてもよい。これにより、第３の信号（信号１０５ｘ、２０４ｉ）のデータ量が小さくされて、通信などの処理がされる、ピッチのデータ（信号１０３ｘ、２０１ｉ）のデータ量が、より十分に小さくできる。

そして、具体的には、例えば、このような信号処理システムにおいて、シフトがされた前記第２の信号（信号１０４ｘ、２０３ｉｂ）が符号化された前記第３の信号（第３の信号２０４ｉ、信号１０５ｘ）が、前記符号化装置で生成され、前記復号装置で復号される動作（図２１のＳ１、Ｓ２）は、シフトがされる前の前記第１の信号（第１の信号１０１ｉ、２０３ｘ）の前記ピッチ（ピッチ８２２）の前記ピッチ変化比（比８８）が、０セントの前記ピッチ変化比（比８８ｘ）に対して有する差が、閾値（図１８における、ｍａｘ｛１．０４１６−１＝０．０４１６、１−０．９６０４＝０．０３９６｝＝０．０４１６）以下の場合（「差」≦０．０４１６）にのみ行われ、前記閾値よりも大きい場合（０．０４１６＜「差」）には行われない。

そして、例えば、当該閾値は、４２セント未満の音程での値（例えば、図１９の先行例における、１．０２２８５−１＝０．０２２８５など）ではなく、４２セント以上に大きい音程での値（上述された、０．０４１６など）である。

すなわち、こうして、先述された動作がされるか否かが切り替えられる、上述された閾値が、（先行例での閾値（図１９での、上述された「０．０２２８５」を参照）と比べて、）より高い値（例えば、図１８における、ｍａｘ｛１．０４１６−１＝０．０４１６、１−０．９６０４＝０．０３９６｝＝０．０４１６）にされてもよい。

つまり、先述の動作がされるピッチ変化比（比８８）の範囲（変域）が、（先行例での範囲８７）より広い範囲８６（図１８）にされてもよい。

これにより、より広い範囲の変域のピッチ変化比が符号化されて、符号化された符号９０のデータ（図２２のデータ９０Ｌ）のデータ量が、より大きくされる。これにより、符号化されたデータ９０Ｌのデータ量が、例えば、先行例における、固定長の符号９１で符号化されたデータ９１Ｌ（図１９）のデータ量よりも（かなり）少ないデータ量などの、少な過ぎるデータ量になってしまうことが回避され、比較的近いデータ量（例えば同じデータ量でもよい）などの、適切なデータ量にされ、符号化後のデータ量が、適切なデータ量にできる。

なお、このように、例えば、ピッチ変化比の変域の範囲（上述の閾値）は、符号化された符号９０によるデータ（データ９０Ｌ）のデータ量が、このような、例えば、固定長での符号化がされた際（先行例）におけるデータ（例えばデータ９１Ｌ）のデータ量に比較的近いデータ量などの、適切なデータ量である範囲（閾値）等である。

しかも、発明者は、実験を通じて、ピッチ変化比（比８８）は、直前のピッチ（ピッチ８２１：図１５）に対して、セント数が（４２セントより）大きい範囲８６ａのピッチ変化比だけの大きな変化をしたピッチ（ピッチ８２２：図１５）のピッチ変化比であることが（ある程度）多いことに気づいた。

このため、このような大きな変化のピッチ変化比（比８８）が生じても、そのピッチ変化比が、上述の、より広い範囲の変域（範囲８６）に属し、第３の信号１０５ｘが生成され、第３の信号１０５ｘの音質よりも低い音質の他の信号が生成される処理がされるのが回避されるなどにより、音質が高くできる。

これにより、ピッチ変化比の変域が、適切な変域にでき、かつ、音質が高くできる。

なお、こうして、例えば、図１８に示されるように、上述された、短い符号長（長さ１）の符号９０ａは、４２セント未満における範囲８７のピッチ変化比８８ａの符号９０などである。そして、例えば、長い符号長（長さ６）の符号９０ｂは、４２セント以上の範囲８６ａにおけるピッチ変化比８８ｂの符号９０などである。

なお、これに対して、先行例（図１９、図１３、図１４など）においては、４２セントより大きい範囲８６ａのセント数でのピッチ変化比（比８８ｂを参照）が生じること多いことに気づいておらず、つまり、範囲８６ａのピッチ変化比が生じることが、音質が低い原因であるのに気づいていない。このため、先行例（図１９、図１３、図１４等）から、本技術の構成を導くことは困難と考えられる。

なお、この閾値（上述の説明での「０．０４１６」）は、例えば、ピッチ変化比の変域の範囲（図１８の範囲８６、１．０４１６〜０．９６０４の範囲）に属する各値のうちで、最も大きい絶対値のセント数での値（１．０４１６）である。つまり、こうして、閾値が、高い値（例えば、上述の「０．０４１６」）にされることにより、範囲８６が、４２未満における範囲８７（図１９の１．０２２８５〜０．９８２８５７を参照）だけでなく、更に、４２セント以上の範囲８６ａ（図１８の１．０４１６〜１．０２９３と、０．９７７２〜０．９６０４とでの範囲）も含むようにされて、より広い範囲にされてもよい。

なお、こうして、複数の処理（複数の構成、複数の技術的特徴）が組み合わせられ、組み合わせからの相乗効果が生じる。

なお、組み合わせられる複数の処理は、何れも、この相乗効果のためのパーツ（部品）として利用されるものである点で共通し、単一の技術範囲に属する。

一方で、知られた従来例（例えば、図１９、図１３、図１４などを参照）では、これら複数の処理のうちの一部または全部を欠き、相乗効果は生じない。この点で、本技術は、従来例に対して相違すると考えられる。

なお、この実施形態は、単に、様々な発明ステップの原理を説明するものである。ここに説明する具体例の、様々な変形は、当業者には明らかであろう。

（第１の実施形態）
第１の実施形態において、動的時間伸縮方式を用いる符号化装置を提案する。

図１は、提案のエンコーダ（符号化装置）の例を示す図である。

図１において、左右の信号の１フレームが、ピッチ輪郭分析ブロックであるブロック１０１に送信される。そして、１０１（ピッチ輪郭分析ブロック（ピッチ輪郭分析部）１０１）において、左右のチャネル（２つのチャネル）のピッチ輪郭が、別々に算出される。つまり、それぞれのチャネルのピッチ輪郭が算出される。なお、例えば、先行技術に記載の、ピッチ輪郭検出アルゴリズムを、ここ（ピッチ輪郭分析部１０１）で用いることができる。

そして、先述された図８に示されるように、１フレームが、Ｍ個の重なり合うセグメントに、セグメント化される。１フレーム内で、Ｍ個のセクションから、Ｍ個のピッチが算出される。

ブロック１０１で抽出された、左右のチャネルのピッチ輪郭は、動的時間伸縮ブロックであるブロック１０２に送られる。そして、ブロック１０２は、各オーディオフレームにおける、ピッチ変化セクション情報（時間伸縮位置）と、それに対応する隣接セクションのピッチ変化比（時間伸縮値）とからなる、抽出されたピッチ輪郭情報に基づいて、ピッチパラメータを生成する。以下、ピッチパラメータを、動的時間伸縮パラメータとも呼ぶ。

この動的時間伸縮パラメータは、可逆符号化ブロックであるブロック１０３に送られる。可逆符号化ブロックは、さらに、時間伸縮値を圧縮し、符号化時間伸縮パラメータを生成する。なお、ブロック１０３では、例えば、一般的な可逆符号化技術が用いられる。

その後、生成された符号化時間伸縮パラメータが、マルチプレクサ（マルチプレクサブロック、マルチプレクサ回路）であるブロック１０６に送られ、ビットストリームが生成される。

動的時間伸縮パラメータは、時間伸縮ブロックであるブロック１０４に送られる。なお、ブロック１０４の処理では、例えば、先行技術に記載されている技術が用いられてもよい。ブロック１０４は、時間伸縮パラメータに従って、入力信号を、再サンプリングする。ステレオ符号化に関し、左右の信号のピッチが、対応する動的時間伸縮パラメータに従って、別々にシフト（時間伸縮）される。

時間伸縮後の信号は、変換エンコーダであるブロック１０５に送られる。

符号化信号および関連情報もまた、マルチプレクサであるブロック１０６に送られる。

なお、第１の実施形態における、ブロック１０１の入力信号は、ステレオ信号である必要はなく、モノラル信号またはマルチ信号であってもよい。動的時間伸縮方式は、あらゆる数のチャネルに適用できる。

（効果）
第１の実施形態において、ピッチ輪郭が、動的時間伸縮方式により処理され、動的時間伸縮パラメータが生成される。そして、生成された動的時間伸縮パラメータは、時間伸縮が適用される位置と、その位置の時間伸縮値とを表す。提案の動的時間伸縮方式により、音質が改善される。時間伸縮値の符号化に用いられるビットを、さらに削減するため、可逆符号化も導入する。

（第２の実施形態）
第２の実施形態において、時間伸縮パラメータを、より効率よく符号化する方式を用いる動的時間伸縮方法を説明する。

課題の欄の記述で説明したとおり、信号の振幅および周期が変化するため、ピッチ検出は、困難な課題である。つまり、ピッチ輪郭情報が、時間伸縮に直接用いられると、ピッチ輪郭の不正確性が、時間伸縮の性能に影響する。信号のハーモニクスは、時間伸縮中のピッチシフトに比例して、修正されるため、ハーモニクスに対する、時間伸縮の影響を考慮する必要がある。

第２の実施形態において説明する時間伸縮方法では、オーディオ信号のハーモニクス構造を分析することで、ピッチ輪郭を修正し、より効率的な、動的時間伸縮パラメータを生成する。これは、３つの部分からなる。

第１に、ハーモニクス構造に従ってピッチ輪郭を修正する。

第２に、時間伸縮の前後のハーモニクス構造を比較することにより、時間伸縮の性能を評価する。

第３に、動的時間伸縮パラメータを効率よく表現する方式を用いる。

先行技術［３］および［４］に記載のようにピッチ輪郭全体を符号化するのではなく、時間伸縮が有効にされている箇所の位置情報のみを符号化し、その位置の時間伸縮値を可逆符号化によって符号化する。

第１に、ピッチ輪郭が修正される。第１の実施形態と同様に、ピッチ算出のため、オーディオフレームが、Ｍ個のセクションにセグメント化される。ピッチ輪郭は、Ｍ個のピッチ値（ｐｉｔｃｈ₁，ｐｉｔｃｈ₂，……ｐｉｔｃｈ_M）を有する。先行技術［３］および［４］において、ピッチは、参照ピッチ値の近くにシフトされる。時間伸縮の後に、安定した参照ピッチが得られる。

ここで、提案の動的時間伸縮により、信号のハーモニクスを、参照ピッチ値のハーモニクス付近にシフトすることができる。

図１７は、ハーモニクスを利用するピッチシフトを説明する図である。

図１７に一例を示す。なお、図示されるように、図１７においては、破線（３箇所）により、参照ピッチと、それぞれの参照ハーモニクスとの図示がされる。図１７において、検出されたピッチは、参照ピッチのハーモニクスに近い。そして、Δｆ₁＞Δｆ₂は、次のことを意味する。つまり、Δｆ₁＞Δｆ₂は、検出されたピッチを、参照ピッチにシフトするために、より大きな伸縮値（図１７のΔｆ₁を参照）が用いられ、検出されたピッチを、参照ピッチのハーモニクスにシフトするために、より小さな伸縮値（図１７のΔｆ₂を参照）が用いられることを意味する。

動的時間伸縮の処理は、ピッチ輪郭を修正し、ハーモニクス成分のシフトを可能にする。この修正処理の詳細を、以下に説明する。

提案の動的時間伸縮は、検出されたピッチと、参照ピッチの差分を比較する。

ここで、下記の数２（数式２）におけるｐｉｔｃｈ_refは、参照ピッチ値を表す。また、ｐｉｔｃｈ_iは、セクションｉの、検出されたピッチ値を表す。

そして、ｐｉｔｃｈ_i＞ｐｉｔｃｈ_refであれば、ｐｉｔｃｈ_iに、より近いのは、ｐｉｔｃｈ_refか、参照ピッチ値のハーモニクスｋ×ｐｉｔｃｈ_refの何れであるかを確認する。ここで、ｋは整数であり、ｋ＞１である。

以下の数式２を満たす、ｋの値が存在する場合には、

値ｐｉｔｃｈ_iは、参照ピッチ値のハーモニクスである、そのｋの値における「ｋ×ｐｉｔｃｈ_ref」にシフトされなければならない。検出されたｐｉｔｃｈ_iは、ｐｉｔｃｈ_i／２に修正される。

他方、ｐｉｔｃｈ_i＜ｐｉｔｃｈ_refであれば、ｐｉｔｃｈ_refに、より近いのは、ｐｉｔｃｈ_iか、ｐｉｔｃｈ_refのハーモニクスの何れであるかを確認する。以下を満たすｋが存在するならば、

ｐｉｔｃｈ_iのハーモニクスは、参照ピッチにシフトされなければならない。よって、ｐｉｔｃｈ_iは、ｋ×ｐｉｔｃｈ_iに修正される。

第２に、この、修正されたピッチ輪郭に基づき、時間伸縮が適用され、時間伸縮の前後のハーモニクス構造を比較することで、性能が評価される。時間伸縮の前後のハーモニクス成分の和が、第２の実施形態における、性能評価基準として用いられる。

セクションｉのピッチ値のハーモニクスは、以下の通り算出される。

ここで、ｑは、ハーモニクス成分の数である。なお、この実施形態においては、ｑ＝３が提案される。そして、Ｓ（・）は、信号のスペクトラムを表す。そして、ｐｉｔｃｈ_iは、ピッチ輪郭ｐｉｔｃｈ₁，ｐｉｔｃｈ₂，……ｐｉｔｃｈ_Mにおいて検出されたピッチ値である。

時間伸縮後に、ハーモニクスの和が算出される。

Ｓ’（・）は、時間伸縮後の信号のスペクトラムを表す。

時間伸縮の前には、信号は、ｐｉｔｃｈ₁，ｐｉｔｃｈ₂，……ｐｉｔｃｈ_Mのハーモニクスからなる。ハーモニクス比ＨＲは、以下のように、これらのハーモニクス成分の間のエネルギー分布を表すように定義される。

は、ピッチｐｉｔｃｈ₁，ｐｉｔｃｈ₂，……ｐｉｔｃｈ_Mのハーモニクスの和からなる。

時間伸縮後に、ハーモニクス比ＨＲ’が、以下の通り算出される。

Ｈ’（ｐｉｔｃｈ_ref）は、時間伸縮後の参照ピッチのハーモニクスの和である。

は、時間伸縮後のピッチｐｉｔｃｈ₁，ｐｉｔｃｈ₂，……ｐｉｔｃｈ_Mのハーモニクスの和からなる。

時間伸縮後に、エネルギーが、参照ピッチに制限されることが期待される。他のピッチのエネルギーは低下する。したがって、ＨＲ’＞ＨＲが期待される。時間伸縮は、ＨＲ’＞ＨＲの時に効果的であると考えられ、このフレームに、時間伸縮が利用される。

動的時間伸縮の第３の部分では、効率的な方式を用いて、動的時間伸縮パラメータを生成する。フレームにおけるピッチ変化位置は、フレーム内にそれほど多くないことから、ピッチ変化位置と、値Δｐ_iとを別々に符号化するように、効率的な方式を設計することができる。

まず、修正されたピッチ輪郭が、正規化される。次に、隣接する、修正されたピッチの差分が、以下の通り算出される。

先行技術［３］および［４］と異なり、動的時間伸縮は

のベクトル全体を符号化せず、Δｐ_i≠１である位置を示すために、ベクトルＣを用いる。それは、時間伸縮が有効にされている位置を示す。Δｐ_i≠１である、それらの時間伸縮値Δｐ_iのみが、可逆符号化技術によって、符号化される。

Δｐ_i＝１であれば、Ｃ（ｉ）は、１に設定され、そうでなければ、Ｃ（ｉ）は、０に設定される。ベクトルＣの各要素は、修正されたピッチ輪郭の１セクションに対応する。

図９は、ベクトルＣの算出の処理を説明する図である。

ベクトルＣの設定内容の一例を、図９に示す。Ｎは、ピッチが変化し、Δｐ_i≠１であるセクションの数として定義される。

ベクトルＣと、Δｐ_i≠１である時間伸縮値Δｐ_iとを符号化するために、動的方式が用いられる。そして、どの方式が選択されたかを示すために、フラグＡが生成される。

まず、このフレームに、ピッチ変化点があるかどうかを確認する。Ｎ＝０であれば、ピッチ変化点がないことを意味する。フラグＡが、０に設定され、この場合、フラグＡのみが、可逆符号化ブロックであるブロック１０３に送られる。

１つ以上のピッチ変化点があれば、Δｐ_i≠１である時間伸縮値Δｐ_iと、ベクトルＣとがデコーダに送られなければならない。

であれば、ピッチ変化点が多数あることを意味し、この状況では、ベクトルと、Δｐ_i≠１である時間伸縮値Δｐ_iとを直接符号化する方が、効率がよい。フラグＡが、１に設定され、ベクトルＣの符号化に、Ｍビットを使用する。例えば、ベクトルＣ＝００００１１１１に関し、このベクトルＣを表すのに、８ビットが使用される。フラグＡ、ベクトルＣ、および、Δｐ_i≠１であるΔｐ_iとが、可逆符号化ブロック１０３に送られる。

一方、Ｎ＞０かつ

であれば、ピッチ変化点の数が少ないことを意味する。この場合、ピッチ変化点の位置を、直接符号化する方が、効率がよい。フラグＡが、２に設定され、ベクトルＣにおいて、０に印付けられている位置の符号化に、ｌｏｇ₂Ｍビットを使用する。

ピッチ変化点の数Ｎの符号化に

ビットを使用する。

例えば、ベクトルＣ＝１０１１１１１１に関し、ピッチ変化点の位置は、２であり、位置２の符号化に、３ビットが使用される。フラグＡ、ピッチ変化点の数Ｎ、ピッチ変化位置、および、Δｐ_i≠１であるΔｐ_iが、ブロック１０３に送られる。

先述された通り、Δｐ_iを統計的に分析した後には、値Δｐ_iの発生確率は、一様ではなく、ビットレートの節約に、可逆符号化が用いられてもよい。なお、可逆符号化１０３（可逆符号化ブロック１０３）の処理は、算術符号化、または、ハフマン符号化であってもよく、選択されたピッチ比Δｐ_iを符号化する。ここで、Δｐ_i≠１である。

複雑性を低下させる目的で、最初の二つの方式のみを、ブロック１０２に利用してもよい。

（効果）
動的時間伸縮により、時間伸縮を通して、ハーモニクス構造を再構築することが可能になる。エネルギーが、参照ピッチと、そのハーモニクス成分に制限されることから、符号化効率が、改善される。評価方式により、ピッチ検出の精度への依存が減少し、符号化システムの性能が、改善される。時間伸縮パラメータを符号化する効率的な方式は、ビットレートを減らすことで、音質を改善し、より大きなピッチ変化レートを有する信号の符号化に対応することができる。

（第３の実施形態）
第３の実施形態において、動的時間伸縮方式を用いる復号装置を提案する。

図２は、第３の実施形態のブロック図を示す図である。

デマルチプレクサであるブロック２０５は、入力ビットストリームを、符号化時間伸縮パラメータ、符号化オーディオ信号、および、関連する変換エンコーダ情報に分割する。

符号化時間伸縮パラメータは、可逆復号ブロックであるブロック２０１に送られる。このブロックにおいて、動的時間伸縮パラメータが生成される。

動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δｐ_iとからなる。

動的時間伸縮情報は、動的時間伸縮再構築ブロックであるブロック２０２に送られる。ブロック２０２は、動的時間伸縮パラメータから、時間伸縮パラメータを復号する。

変換デコーダであるブロック２０４は、デマルチプレクサブロック２０５からの変換エンコーダ情報に基づいて、符号化信号を復号する。それは、時間伸縮された信号を復号する。

時間伸縮ブロック２０３は、時間伸縮された信号を受け取り、入力信号に対して、時間伸縮を適用する。この時間伸縮処理は、第１の実施形態におけるブロック１０４での処理と同じである。時間伸縮パラメータ、および、オーディオ信号に従って、信号は伸縮されない。

（第４の実施形態）
動的時間伸縮再構築の具体例を、第４の実施形態で説明する。

動的時間伸縮再構築によって受け取られた動的時間伸縮は、フラグと、時間伸縮が適用される位置の情報と、それに対応する時間伸縮値Δｐ_iとからなる。

まず、フラグが確認される。フラグが０であれば、対象フレームに、時間伸縮が適用されないことを意味する。この場合、再構築されたピッチ輪郭ベクトルは、全て１に設定される。

フラグが１であれば、時間伸縮が適用される位置を示すベクトルＣの符号化に、Ｍビットが使用されることを意味する。１ビットが、１つの位置に合わせられる。１は、ピッチ変化なしの印として、一方、０は、時間伸縮の印として、印付けられる。ベクトルＣにおける０の数を数えることによって、時間伸縮点Ｎの総数が分かる。その過程で、Ｎ回の伸縮値Δｐ_iが、バッファから得られる。Δｐ_iは、時間伸縮値に対応している。ここで、ｃ（ｉ）＝０である。

擬似コードは、以下の通りである。

フラグが２であれば、時間伸縮点の数Ｎが、バッファから読み出される。その後、Ｎ個の時間伸縮点が、バッファから読み出される。最後に、時間伸縮点に対応するピッチ比が、バッファから得られる。擬似コードは、以下の通りである。

正規化されたピッチ輪郭は、以下の通りに、再構築される。

ピッチ輪郭は、後に、時間伸縮に用いられる。

（第５の実施形態）
第５の実施形態において、動的時間伸縮方式を用いる、他の符号化装置を提案する。

図３は、提案のエンコーダを示す図である。

図１に示される符号化システムと、図３に示されるエンコーダとの間の違いは、ブロック３０６および３０７にある。図３の、可逆復号３０６の機能は、図２の２０１と同じである。動的時間伸縮再構築ブロック３０７は、図２の２０２と同じである。

図３の、この構成を用いることで、エンコーダは、デコーダと全く同じ時間伸縮パラメータを用いることになる。

第５の実施形態は、エンコーダにおける時間伸縮の精度を高める。

（第６の実施形態）
第６の実施形態において、ミドルサイドステレオモード（ＭＳモード）を組み入れた符号化装置を説明する。

図４は、第６の実施形態の符号化装置の構成を示す図である。

多くの変換コーデックにおいて、例えば、ＡＡＣコーデック等のステレオオーディオ信号の符号化に、ＭＳモードが、頻繁に用いられる。

ＭＳモードは、周波数領域について、左右のチャネルのサブバンド同士の類似性を検出する。ＭＳステレオモードは、左右のチャネルのサブバンドが類似している時に、有効にされる。そうでなければ、ＭＳモードは有効にされない。

ＭＳモード情報は、多くの変換符号化に利用できることから、動的時間伸縮において、ＭＳモード情報を、ハーモニクス時間伸縮の性能改善のために利用することができる。

先述の図４により、変換コーデックからのＭＳモード情報を用いる構成が示される。

左右のチャネル信号が、ＭＳ演算ブロックである、ブロック４０１に送られる。ＭＳ演算ブロックは、周波数領域について、左右の信号の間の類似性を算出する。これは、一般的な変換符号化における、ＭＳ検出と同じである。ブロック４０１によって、１フラグが生成される。ＭＳモードが、ステレオオーディオ信号の全てのサブバンドに対して有効にされていれば、フラグは、１に設定され、そうでなければ、フラグは、０に設定される。

ｆｌａｇ＝１であれば、ダウンミックスブロックである、ブロック４０２において、左右のチャネル信号が、ミドル信号とサイド信号とにダウンミックスされる。ミドル信号は、ピッチ輪郭分析ブロックである、ブロック４０３に送られる。

そうでなければ、元のステレオ信号がブロック４０３に送られる。

ピッチ輪郭分析ブロックである、ブロック４０３は、図１のブロック１０２と同様に、ピッチ輪郭情報を算出する。ダウンミックスされた信号に対し、１組のピッチ輪郭が生成される。そうでなければ、左右の信号のピッチ輪郭が、別々に生成される。

ブロック４０４、４０５、および４０６、４０８の説明は、ブロック１０３、１０４、および１０５、１９６の動作での説明と同じである。

（効果）
第６の実施形態において、動的時間圧縮は、ステレオ符号化に、さらに適するように変更される。ステレオ符号化に関し、左右のチャネルは、異なる特性を持つことがある。この場合、異なるチャネルに対し、異なる時間圧縮パラメータが算出される。左右のチャネルが、類似の特性を有することもある。両チャネルに、同じ時間圧縮パラメータを用いると、合理的である。左右のチャネルが類似している場合、同じ時間圧縮パラメータの組を用いることで、より効率的なオーディオ符号化が、達成できる。

（第７の実施形態）
第７の実施形態において、ＭＳモードに対応する復号装置を説明する。

図５は、第７の実施形態における復号装置のブロック図である。

入力ビットストリームが、デマルチプレクサブロック５０６に送られる。

ブロック５０６の出力は、符号化時間圧縮パラメータ、変換エンコーダ情報、および符号化信号である。

変換デコーダであるブロック５０５は、変換エンコーダ情報に従って、符号化信号を、時間圧縮信号に復号し、ＭＳモード情報を抽出する。

ＭＳモード情報は、ＭＳモード検出ブロック５０４に送られる。

このフレームの全てのサブバンドに対して、ＭＳモードが有効にされていれば、ＭＳモードは、時間圧縮に対しても、有効にされ、フラグが、１に設定される。そうでなければ、ＭＳモードは、ハーモニクス時間伸縮の再構築に用いられず、フラグは、０に設定される。当該ＭＳモードフラグは、ハーモニクス時間伸縮再構築ブロック５０２に送られる。

動的時間伸縮パラメータは、可逆復号ブロックであるブロック５０１から、逆量子化される。

動的時間伸縮再構築ブロック５０２は、ＭＳフラグに従って、時間伸縮パラメータを再構築する。

Ｍ／Ｓｆｌａｇ＝１であれば、１組の時間伸縮パラメータが生成され、そうでなければ、動的時間伸縮パラメータから、２組の時間伸縮パラメータが生成される。時間伸縮パラメータの生成プロセスは、第２の実施形態と同じである。

時間伸縮ブロック５０３において、Ｍ／Ｓｆｌａｇ＝１であれば、時間伸縮された左信号と、時間伸縮された右信号とに、異なる時間伸縮パラメータが適用される。そうでなければ、時間伸縮されたステレオオーディオ信号に、同じ時間伸縮パラメータが適用される。

（第８の実施形態）
図６は、ＭＳモードを利用する、変更された動的時間伸縮を用いるエンコーダのブロック図である。

図６に示されるように、エンコーダにおける時間伸縮の精度を高めるように、第４の実施形態を変更する。

この変更は、第３の実施形態の変更と同じである。

可逆符号化ブロック６０８、および、動的時間伸縮再構築ブロック６０９が、符号化構造に追加される。この目的は、エンコーダが、デコーダと同じ時間伸縮パラメータを用いるようにすることである。ブロック６０８、および、６０９の説明は、図５の、ブロック５０１および５０２の説明と同じである。

（第９の実施形態）
第９の実施形態において、閉ループ動的時間伸縮手段を備える符号化装置を、導入する。

図７は、第９の実施形態の符号化装置を示す図である。

第９の実施形態の構成は、第８の実施形態の構成に基づくが、比較スキーム（比較スキーム７１０）が、追加されている。符号化信号、および、時間伸縮パラメータを、図７のマルチプレクサ７１１に送る前に、比較スキーム７１０において、符号化信号が確認される。時間伸縮の復号後に、全体の音質が改善されているかどうかが、判断される。

比較スキームには、様々な種類がある。一例は、復号信号のＳＮＲを、元の信号と比較することである。

第１に、時間伸縮された符号化信号が、変換デコーダによって、復号される。図７の７０８と同じ時間伸縮パラメータを用いて、復号された時間伸縮信号に時間伸縮が適用され、非伸縮信号が生成される。非伸縮信号と元の信号とを比較することによって、ＳＮＲ₁が算出される。

第２に、他の符号化信号が、時間伸縮を適用することなく、生成される。この符号化信号は、同じ変換デコーダによって復号され、復号信号を、元の信号と比較することによって、ＳＮＲ₂が算出される。

第３に、ＳＮＲ₁と、ＳＮＲ₂とを比較することによって、決定がなされる。ＳＮＲ₁＞ＳＮＲ₂であれば、時間伸縮が選択され、第１の符号化信号、変換エンコーダ情報、および、符号化時間伸縮パラメータが、デコーダに送られる。そうでなければ、時間伸縮は選択されず、第２の符号化信号、および、変換エンコーダ情報が、デコーダに送信される。

比較スキームの、他の方法として、ＳＮＲの代わりに、ビット消費を比較することができる。

要約すれば、次のことが言える。すなわち、時間伸縮技術は、オーディオ符号化システムにおけるピッチ変化の影響を補うために用いられる。そして、時間伸縮の効率を改善するために、動的時間伸縮方式が提案される。本発明の時間伸縮方式は、ハーモニクス構造の分析に基づいて、ピッチ輪郭を修正し、時間伸縮の間のハーモニクス構造を考慮することによって、音質を改善する。動的時間伸縮方式は、また、時間伸縮の前後のハーモニクス構造を比較することによって、時間伸縮の有効性を評価し、対象オーディオフレームに、時間伸縮を利用すべきかどうかを決定する。それにより、不正確なピッチ輪郭情報によってもたらされる不正確性を取り除く。動的時間伸縮は、また、時間伸縮パラメータを、より効率的に符号化する方法を提供し、変換符号化から得られるＭＳモード情報を用いて、音質および符号化効率を改善する。

なお、こうして、符号化装置１および復号装置２（信号処理システム２Ｓ、図１、図２、図２０、図２１など）が構築されてもよい。そして、例えば、ある局面などにおいて、次の動作がされてもよい。上述された処理のうちの一部（または全部）は、以下で説明される動作と同じ（類似する）動作などでもよい。

つまり、符号化装置１において、次の処理がされてもよい。

つまり、音の信号１０１ｉ（図１、図１１の信号８１１を参照）から、当該信号１０１ｉのピッチ（例えば、図１５のピッチ８２２を参照）が、参照ピッチ（先述：例えば、図１５の参照ピッチ８２ｒ）へとシフトされた信号１０４ｘ（図１、図１１の信号８１２を参照）が生成されてもよい（時間伸縮部１０４、図２１のステップＳ１０４）。

なお、このようにして、シフト先のピッチ（参照ピッチなど）へのシフトがされてもよい。そして、シフト先のピッチは、先述のように、参照ピッチでなく、参照ピッチの倍音（ハーモニクス）などでもよい（数式２などを参照）。

なお、信号１０１ｉ（信号１０４ｘ）は、具体的には、例えば、ステレオの２チャンネル、５．１チャンネル、または、７．１チャンネルなどのマルチチャンネルの複数のチャネルなどの、複数のチャンネルのうちの１つのチャンネルにおける信号などでもよい。

そして、さらに具体的には、信号１０１ｉは、例えば、複数のセクション（例えば、図１６に示される、フレーム８４Ｆ（図１６）に含まれる、Ｍ個のセクション８４（セクション８４１〜セクション８４Ｍ）を参照）の信号のうちの、１つあるいは一部のセクション８４における信号などでもよい。

なお、図１６のＭの値は、具体的には、例えば１６などでもよい。

そして、例えば、上述された参照ピッチ（参照ピッチ８２ｒ）は、信号１０１ｉが符号化されるよりも、当該参照ピッチへとシフトがされた後の信号１０４ｘが符号化される方が、より適切な符号化がされるピッチである。

つまり、ここで、適切であるとは、例えば、仮に、シフトがされる前の信号１０１ｉが符号化されたと仮定した際における、（音質を維持したままでの、）符号化後のデータ量よりも、シフトがされた後の信号１０４ｘが符号化された信号１０５ｘ（図１）のデータ量の方が小さいことなどをいう。つまり、例えば、小さい方のデータ量は、そのデータ量のデータの音質と同じ音質で、音質が維持された他方のデータのデータ量よりも小さいデータ量などをいう。

つまり、例えば、参照ピッチは、信号１０１ｉのセクション（例えば図１５のセクション８２２ｓ）以外の他のセクション（例えば、セクション８２２ｓに隣接するセクション８２１ｓ）でのシフトで、当該他のセクションのピッチ（ピッチ８２１）がシフトされる先のピッチ（例えば、参照ピッチ８２ｒ）と同じピッチ（参照ピッチ８２ｒ）などである。

そして、シフトがされた後の信号１０４ｘ（図１）が、信号１０５ｘへと符号化されてもよい（変換エンコーダ１０５、ステップＳ１０５）。

これにより、シフトがされた後の信号１０４ｘが、スペクトル的に符号化し易くなり、符号化し易くなった信号を符号化することで、シフトしない信号（第１の信号１０１ｉ）を符号化することに比べて、同じ音質であれば、符号化に必要なデータ量が少なくできる。

つまり、こうして、シフトがされて、シフトがされる前における第１の信号１０１ｉが直接符号化されるのが回避され、シフトがされた後の第２の信号１０４ｘが、第１の信号１０１ｉが直接符号化された信号のデータ量よりも小さいデータ量の第３の信号１０５ｘへと符号化され、第１の信号１０１ｉの音の、符号化された信号として、より小さいデータ量の第３の信号１０５ｘが用いられる。

一方で、シフトがされる前の信号１０１ｉのピッチ（ピッチ８２２（図１５）を参照）を特定するパラメータ１０２ｘ（先述された動的時間伸縮パラメータ、ピッチパラメータ）が算出されてもよい（ピッチパラメータ生成部１０２、ステップＳ１０２）。

なお、先述のように、例えば、算出されるパラメータ１０２ｘは、予め定められた比（図１８の比８８（Tw_ratio）：先述されたピッチ変化比）でもよい。そして、算出された比（比８８、パラメータ１０２ｘ）は、予め定められたピッチ（例えば、図１５のピッチ８２１を参照）から、当該比（図１５に示される比８３を参照）だけの変化をしたピッチ（ピッチ８２２）を特定することができる（図１５に示される比８３を参照）。

なお、さらに具体的には、例えば、比８８のデータは、その比８８の番号（図Tw_ratio_index）を特定する、番号のデータであり、特定される番号の比を特定することにより、比を間接的に特定してもよい。このような、番号のデータが、パラメータ１０２ｘとして算出されてもよい。

なお、図１５においては、符号８３の矢印線の先端の位置により、符号８３で示される比が、ピッチ８２１と、ピッチ８２２との間の比であることが模式的に図示される。

そして、算出されるパラメータ１０２ｘは、符号化された、音の信号１０５ｘが（例えば復号装置２などにより）復号される際に、信号１０５ｘ（図２の信号２０４ｉ）が復号された信号（図２の信号２０３ｉｂ（図１の信号１０４ｘ））から、当該パラメータ１０２ｘにより特定されるピッチ（ピッチ８２２を参照）の信号（図２の信号２０３ｘ（図１の信号１０１ｉ））が生成される（逆シフトがされる）パラメータでもよい。

なお、さらに具体的には、当該パラメータ１０２ｘが、符号化装置１から、復号をする装置（復号装置２）へと通信されて、通信されたパラメータ１０２ｘ（図２の信号２０１ｉを参照）により、上述の処理がされてもよい。

これにより、復号された後の信号（図２の信号２０３ｘ）のピッチが、確実に、適切なピッチ（ピッチ８２２を参照）にできる。

なお、こうして、音のデータ（図１の信号１０４ｘ、信号１０５ｘ、図２の信号２０３ｉｂ、信号２０４ｉ）と共に、ピッチのデータ（ピッチを特定するパラメータ１０２ｘ）が利用されて、音のデータと、ピッチのデータとの２つのデータが利用されてもよい。

しかしながら、音のデータについて、信号１０１ｉから符号化された、信号２０３ｉｂへと復号される、小さなデータ量の信号（図１の信号１０５ｘ、図２の信号２０４ｉ）が利用されて、音のデータのデータ量が小さくされることではなくて、むしろ、他方の、ピッチのデータ（図１のパラメータ１０２ｘ、図２のパラメータ２０１ｉ）のデータ量が小さくすることの方が、より強く望まれることも考えられる。

そこで、より具体的には、例えば、算出されたパラメータ１０２ｘが、パラメータ１０２ｘのデータ量よりも小さいデータ量を有する、符号化後のパラメータ１０３ｘ（図１、図２のパラメータ２０１ｉ）へと符号化（可逆符号化（Ｈｕｆｆｍａｎ符号やＡｒｉｔｈｍｅｔｉｃ符号化など））されてもよい（可逆符号化１０３、ステップＳ１０３）。

これにより、パラメータ１０２ｘ（ピッチのデータ）についても、符号化（可逆符号化）を施すことで、パラメータ１０２ｘ（ピッチのデータ）のデータ量も小さくできる。

しかしながら、算出されるパラメータ１０２ｘ（図１、図２のパラメータ２０４ｉ）によって特定できるピッチ（例えば、図１５のピッチ８２２を参照）のセクション（セクション８２２ｓ）の時刻に隣接する時刻のセクション（直前のセクション８２１ｓ）のピッチ（ピッチ８２１）もある。

そこで、算出されるパラメータ１０２ｘは、隣接する（セクション（セクション８２１ｓ）の）ピッチ（ピッチ８２１）と、そのパラメータ１０２ｘのピッチ（ピッチ８２２）との間の比（比８３、図１８のTw_ratio）を特定するパラメータでもよく、この比を算出（特定）して、算出された比に対して可逆符号化を行い、この比が不可逆符号化された後のデータを、符号化時間伸縮パラメータとしてもよい（先述の説明を参照）。

つまり、算出されるパラメータ１０２ｘは、そのパラメータ１０２ｘによって特定される比（図１５の比８３）だけの変化を、隣接するピッチ（ピッチ８２１）から有するピッチ（ピッチ８２２）を特定して、ピッチ（ピッチ８２２）を、当該比によって間接的に特定してもよい。

しかしながら、発明者は実験を行い、比較的多くの場合においては、０セントの音程の変化の比８８ｘ（１．０の比：図１８）に対して比較的近い比８８ａ（例えば、比８８ｘそのものなど）は、高い頻度（出現頻度）で生じる一方で、比８８ｘから比較的離れた比８８ｂ（例えば、図１８に示される、「１．０２９３」の比など）は、低い頻度で生じることに気付いた。

つまり、比８８が生じる（出現する）頻度は、その比８８が、０セントの比８８ｘに近いか否かに応じた頻度（０セントの比８８ｘに近いほど高く、離れるほど低い頻度）であることに気付いた。

そこで、算出された比８８（パラメータ１０２ｘ）は、０セントの比８８ｘに対して比較的近い比（比８８ａ：図１８）で、比較的高い出現頻度で出現する比８８ａである場合には、比較的短い符号長（ビット長、長さ）の符号（符号（ビット列）９０ａ（図１８）、例えば、長さが１である符号「０」（図１８を参照）など）へと符号化されてもよい。

そして、他方で、算出された比８８（パラメータ１０２ｘ）は、０セントの比８８ｘから比較的離れた比（比８８ｂ）であり、比較的低い出現頻度で出現する比８８ｂである場合には、比較的長い長さの符号（符号９０ｂ、例えば、図１８に示される、符号長が６の符号「１１１１１０」）へと符号化されてもよい。

つまり、こうして、算出された、それぞれの比８８（パラメータ１０２ｘ：比８８ａ、比８８ｂなど）が、その比８８が、０セントの比８８ｘに近いか否か（比８８ｘとの差がどの程度であるか）に応じた出現頻度に対応する符号長の可変長符号９０（符号９０ａ、９０ｂなど）へと、可変長符号化されてもよい。

なお、具体的には、例えば、比８８（比８８ａ、８８ｂなど）に対して、その比８８に対応した適切な可変長符号９０（符号９０ａ、９０ｂなど）を対応付けるテーブル１０３ｔ（テーブルのデータ、テーブル８５：図１８、図２０、図１などを参照）が記憶されてもよい。

なお、このテーブル１０３ｔは、具体的には、例えば、可逆符号化部１０３（第１のピッチ処理部１０３Ａ：図１、図２０等を参照）により記憶されてもよい。

そして、記憶されたテーブル１０３ｔにより、算出された比８８（比８８ａ、８８ｂ：パラメータ１０２ｘ（図１））が対応付けられた可変長符号９０（符号９０ａ、９０ｂ：パラメータ１０３ｘ（図１））へと、その比８８が符号化されることにより、可変長符号化が行われてもよい。

これにより、ピッチの、符号化後のパラメータ１０３ｘ（符号９０）のデータ量が、より小さくなり、変換エンコーダで使うことの出来る符号化データ量を間接的に増やすことができ、符号化音質を向上させることができる。

そして、復号装置２（図２等）において、次の処理がされてもよい。

つまり、音の信号２０３ｉｂ（信号１０４ｘ：図１）が符号化された信号２０４ｉが、信号２０３ｉｂ（信号１０４ｘ）へと復号されてもよい（変換デコーダ２０４、ステップＳ２０４）。なお、変換デコーダの方式は、例えば、ＭＰＥＧ（Moving Picture Experts Group）−ＡＡＣ（Advanced Audio Coding）などのような直交変換符号化方式であってもいいし、ＡＣＥＬＰ（Algebraic Code Exited Linear Prediction）などの音声符号化方式であっても良いし、その他の方式などでもよい。

そして、復号される信号２０４ｉは、より具体的には、シフトがされる前の、音の信号２０３ｘ（信号１０１ｉ）から生成された、当該信号２０３ｘ（信号１０１ｉ）におけるピッチ（ピッチ８２２）が、参照ピッチ（参照ピッチ８２ｒ）へとシフトされた後の信号２０３ｉｂ（信号１０４ｘ）が符号化された信号２０４ｉ（信号１０５ｘ）である。

つまり、復号される信号２０４ｉは、例えば、上述された符号化装置１により、符号化がされた後における信号１０５ｘでもよい。

つまり、さらに具体的には、例えば、復号される信号２０４ｉは、符号化をした符号化装置１から復号装置２へと通信されるデータ（図１のストリーム１０６ｘ、図２のストリーム２０５ｉ）に含まれ、符号化装置１から復号装置２へと通信される信号でもよい。

そして、信号２０４ｉから復号された信号２０３ｉｂから、復号された当該信号２０３ｉｂにおける参照ピッチ（参照ピッチ８２ｒ）が、シフトがされる前のピッチ（ピッチ８２２）へとシフト（逆シフト）された信号２０３ｘを生成する（時間伸縮部２０３、ステップＳ２０３）。

そして、より具体的には、符号化時間伸縮パラメータ２０１ｉを可逆復号化して、動的時間伸縮パラメータ２０２ｉを取得する。取得された動的時間伸縮パラメータ２０２ｉは、前記ＴＷ＿Ｒａｔｉｏ＿Ｉｎｄｅｘで表される。そして、取得された動的時間伸縮パラメータ２０２ｉ、および、ＴＷ＿Ｒａｔｉｏ＿Ｉｎｄｅｘと、ＴＷ＿Ｒａｔｉｏとの間の関係を表したテーブル１０３ｔにより、時間伸縮パラメータＴＷ＿Ｒａｔｉｏを取得する。取得したＴＷ＿Ｒａｔｉｏに応じて、信号２０３ｉｂを、時間伸縮回路（時間伸縮部）２０３にて、シフトされる前のピッチに相当する非伸縮信号２０３ｘへと変換する（逆シフト）。

そして、具体的には、比８８（パラメータ２０２ｉ、パラメータ１０２ｘ）が符号化されたパラメータ２０１ｉ（図１のパラメータ１０３ｘ）が、比８８（パラメータ２０２ｉ、パラメータ１０２ｘ）へと復号されて、復号された比８８（パラメータ２０２ｉ）により特定されるピッチ（ピッチ８２２）へのシフトがされてもよい（可逆復号部２０１、Ｓ２０１）。

これにより、ピッチのデータのデータ量についても、符号化されたデータ（パラメータ２０１ｉ、パラメータ１０３ｘ）における、小さなデータ量にされて、ピッチのデータのデータ量も小さくできる。

そして、発明者は、先述のように、比８８は、０セントの比８８ｘに近い比８８ａである場合には、高い頻度で出現し、０セントの比８８ｘから離れた比８８ｂである場合には、低い頻度で出現することに気付いた。

そこで、０セントの比８８ｘに近い比８８ａへと、比較的短い符号９０ａが、復号され、０セントの比８８ｘから離れた比８８ｂへと、比較的長い符号９０ｂが復号されてもよい。

つまり、こうして、０セントの比８８ｘに近いか否かに応じた出現頻度に合わせた復号（当該出現頻度に基づいた可変長符号化における復号）がされてもよい。

なお、換言すれば、復号されるパラメータ２０１ｉの符号９０（図１８）は、０セントの比８８ｘに近い比８８ａの符号９０（符号９０ａ）である場合には、短い符号９０ａであり、０セントの比８８ｘから離れた比８８ｂの符号９０（符号９０ｂ）である場合には、長い符号９０ｂであってもよい。

つまり、これにより、短い符号９０ａが、０セントの比８８ｘに近い比８８ａへと復号され、長い符号９０ｂが、０セントの比８８ｘから離れた比８８ｂへと復号されてもよい。

これにより、より十分に、ピッチのデータのデータ量が小さくできる。

なお、より具体的には、例えば、先述されたテーブル１０３ｔ（テーブル８５：図１８）に対応する復号化テーブル２０１ｔ（図１８、図２、図２０など：テーブル８５）を記憶しておく。

そして、さらに具体的には、例えば、テーブル２０１ｔは、可逆復号部２０１（第２のピッチ処理部２０１Ａ：図２、図２０などを参照）により記憶されてもよい。

そして、記憶されたテーブル２０１ｔにより、可変長符号９０（符号化されたパラメータ２０１ｉ）が対応付けられた比８８（パラメータ２０２ｉ）へと復号がされることにより、適切な、復号の処理がされてもよい。

なお、先行例としては、固定長の長さの固定長符号（図１９における、３ビットの長さの固定長符号９１（符号９１ａ、９１ｂ）を参照）により、ピッチのデータ（比８８（図１８）、図１のパラメータ（パラメータ２０２（図２等）を参照）が、固定長符号化される技術が知られる。

そして、先述された、図１６の説明で述べられたように、例えば、１つのフレーム８４Ｆは、１６個のセクション８４（セクション８４１〜８４Ｍ、Ｍ＝１６）へと分割される。

このため、先行例では、それぞれのフレーム８４Ｆについて通信されるデータ９Ｌ（図２２の第１行第２列）は、例えば、そのフレーム８４Ｆの１６個のセクション８４に対応する、１６個の固定長符号９１（図２２の固定長符号９１ｃ、９１ｄなど）を含み、３ビット×１６個＝４８ビット（図２２の表の第１行第３列を参照）だけの、比較的大きいデータ量を有する。

これに対して、本実施形態の符号化装置１、復号装置２によれば、それぞれのフレーム８４Ｆについて通信されるデータ９０Ｌ（図２２における第２行、第３行）は、図２２に示される１５個の「１」の文字により示される、１５個の、長さ１の符号９０ｃを含む。

そして、本実施形態におけるデータ９０Ｌは、例えば、図２２に示される１個の、「６」（データ９０Ｌｓでは「４」）の文字により示される、１個の、長さ６（データ９０Ｌｓでは長さ４）の符号９０ｄ（データ９０Ｌｓの符号９０ｄｓ、データ９０Ｌｔの符号９０ｄｔ）を含む。

このように、本実施形態におけるデータ９０Ｌは、高い頻度（例えば、図２２の例では、１５／１６の頻度）で出現する、短い長さ（例えば、図２２における、符号９ｃにおける長さ１、および、図１８の表の符号９０ａ「０」における長さ１などを参照）の符号９０ｃ（図１８における符号９０ａ）を、多い個数（例えば、図２２のデータ９０Ｌの例では１５個）だけ含む。

そして、データ９０Ｌは、長い長さ（例えば、図２２における長さ６個（データ９０Ｌｓでは長さ４）、および、図１８の符号９０ｂ「１１１１１０」における長さ６などを参照）の符号９０ｄ（図１８の符号９０ｂ）を、少ない個数（例えば、図２２で例示される１個）だけ含む。

つまり、図示されるように、本システムでのデータ９０Ｌは、例えば、１×１５＋６×１＝２１ビット（第３行のデータ９０Ｌｓ）、または、１×１５＋４×１＝１９ビット（第２行）などの、比較的小さいデータ量を有する。

このため、例えば、本システムによれば、それぞれのフレーム８４Ｆの通信等の処理でのデータ９０Ｌのデータ量における、先行例でのデータ９１Ｌ（図２２の第１行）でのデータ量からの減少幅として、４８−２１＝２７ビット（第３行のデータ９０Ｌｔ）、または、４８−１９＝２９ビット（第２行のデータ９０Ｌｓ）などの減少幅が生じることが期待できる。

なお、これらの減少幅（２７ビット、２９ビットなど）は、単なる、計算によって、理論的に想定される一例である。つまり、上述された、減少のための原理は、これらの減少幅（２７ビット、２９ビット）と同一または近似する減少幅を得るために利用されてもよいし、比較的小さい減少幅などの、その他の減少幅を得るために利用されるなどしてもよい。

このように、本実施形態によれば、減少がされる、データ量の減少幅が、比較的大きな減少幅（例えば、上述された２７ビット、２９ビットなど）にできる。

そして、さらに、本システムにおいて、次の動作がされてもよい。

図１２により、半音を構成する１００セント（１セントは、１オクターブの１２００分の１）だけの音程９０ｊが示される。このような半音の音程９０ｊの１００分の１だけの音程が、１セントである。なお、この点については、例えば、図１２に示される「１００ｃ」の文字も、参照されたい。

そして、図１８の表における第１列（cent）における、それぞれの行においては、その行の比８８だけ互いに離れた２つのピッチ（図１５のピッチ８２１、８２２を参照）の間の音程が、１セント（cent）の何倍の音程であるかが示され、つまり、その行の比８８の音程のセント数が示される。

なお、例えば、図１８の表の第３行（符号「１１１１００」の行）においては、１．０２９３倍の比８８（比８３（図１５）を参照）のセント数が、５０セントであることが示される。

そして、範囲８６１（図１８：範囲８６ａの一部）は、０セントの比８８ｘ（図１８の第８行）から、４２セント以上に大きい比８８（１．０２９３、１．０４１６）の範囲（比８８ｘより大きく、かつ、比８８ｘからの差の絶対値が、４２セント以上である範囲）を示す。

一方で、範囲８６２（範囲８６ａの一部）は、−４２セント以上に小さい比８８（０セントの比８８ｘから、より小さい方へと、４２セント以上離れた比８８（０．９７７２、０．９７１５、０．９６０４）の範囲（比８８ｘよりも小さく、かつ、比８８ｘからの差の絶対値が、４２セント以上であるは範囲）である。

つまり、範囲８６１と、範囲８６２とを合わせてなる範囲８６ａは、０セントの比８８ｘ（第８行）からの差の絶対値が、４２セント以上であり、比８８ｘから、４２セント以上、離れた比８８の範囲を示す。

そして、範囲８７は、４２セント未満だけしか離れてない、比８８の範囲である。

なお、この範囲８７については、後で、さらに詳しく説明される。

そして、比８８ａ（図１５の比８３ａ）は、図１８に示されるように、例えば、上述された、４２セント未満における範囲８７に属する比８８であり、比８８ｂ（図１５の比８３ｂ）は、４２セント以上である範囲８６ａに属する比８８である。

なお、比８３（図１５、図１８の比８８）を作る２つのピッチ（図１５のピッチ８２１、８２２を参照）の間の差は、その比８３が、４２セント未満の範囲８７での比８３ａ（比８８ａ）であれば、比較的小さい差であり、４２セント以上の範囲８６ａでの比８３ｂ（比８８ｂ）であれば、比較的大きな差である。

そして、発明者の実験によれば、４２セント未満の範囲８７の比８８ａが生じるだけに止まることなく、このような、大きな差の２つのピッチ（ピッチ８２１、８２２を参照）が生じて、４２セント以上の範囲８７での比８８ａが現れることがあるのがみられた。

なお、ここで、比８８ａは、例えば、０セントの比８８ｘ（Tw_ratio「１」）に対して比較的近い比８８ａ（図１８では、比８８ｘそのもの）である。

そして、他方の比８８ｂは、比８８ｘから比較的遠い比８８ｂである。

つまり、先述のように、例えば、比８８ａに対応する符号９０ａ（符号「０」）の長さ（長さ１）は、比８８ｂに対応する符号９０ｂ（「１１１１００」）の長さよりも短い。

そこで、例えば、信号１０１ｉ（図１）の比８８として、範囲８７に属する比８８ａが算出された場合において、算出された比８８ａに対応する符号９０ａ（図１のパラメータ１０３ｘ）が生成され（符号化装置１）、生成された符号９０ａが、比８８ａ（図２のパラメータ２０２ｉ）へと復号されて（復号装置２）、先述された処理がされてもよい。

つまり、これにより、比８８が、範囲８７に属する比８８ａである場合において、先述された処理がされて、シフトが利用され、音のデータ（信号１０５ｘ（図１）、信号２０４ｉ（図２）を参照）のデータ量が小さくされてもよい。

そして、さらに、信号１０１ｉの比８８として、範囲８６ａに属する比８８ｂが算出された場合においても、比８８ｂに対応する符号９０ｂが生成され、生成された符号９０ｂが、比８８ｂへと復号されて、先述された処理がされ、音のデータ（信号１０５ｘ（図１）、信号２０４ｉ（図２）を参照）のデータ量が小さくされてもよい。

これにより、範囲８６ａの比８８ｂが算出される場合、つまり、２つのピッチ（ピッチ８２２、８２１）の間の比８３が、４２セント以上である場合にも、先述の処理がされて、音のデータのデータ量が小さくされて、より確実に、音のデータのデータ量が小さくできる。

つまり、比８３（図１５）が、４２セント未満の比８３ａであり、２つのピッチ（図１５のピッチ８２２、８２１を参照）の間の変化が、小さい変化である場合だけでなく、４２セント以上の比８３ｂで、大きい変化である場合にも、音のデータのデータ量が小さくされる。つまり、ピッチの変化（図１５のピッチ８２２、８２１を参照）が大きいか小さいかに関わらず、音のデータのデータ量が小さくされ、確実に、音のデータのデータ量が小さくできる。

なお、これに対して、先行例（図１９）においては、２つのピッチ（ピッチ８２２、８２１を参照）の間の比８９（図１９）が、４２セント未満である範囲８７に属する比である場合にのみ、データ量が小さくされる処理がされて、確実に、音のデータのデータ量が小さくできない。

このように、本システムでは、確実にデータ量が小さくできて、先行例（図１９等）に対して、際立った先進性を有する。

なお、このようにして、本実施形態によれば、適切な処理がされる範囲が、先行例における比較的狭い範囲（範囲８７のみからなる範囲）から、その範囲よりもさらに広い範囲（範囲８７を含むのに加えて、更に、範囲８６ａまで含んだ範囲８６）にされて、適切な処理がされる範囲が、より広い範囲（範囲８７）にできる。

先述された、範囲８７は、このような、広げられた範囲の一例である。

つまり、発明者の現時点での知識によれば、先行例で適切な処理がされる範囲（範囲８７）は、少なくとも、４２セント未満の比（比８８等を参照）のみが含まれてなる範囲である。

また、たとえば、次のような局面では、次の動作・構成をしてもよい。つまり、その位置７０４ｐ（図９）での、２つのピッチ（図１５のピッチ８２２、８２１を参照）の間の比８３ｐ（図９）が、０セントの比９０ｘ（図１８）（の近傍）ではない位置７０４ｐ（先述された、ピッチが変化する位置）と、その位置７０４ｑ（図９）での比８３ｑ（図９）は、０セントの比９０ｘ（の近傍）である位置７０４ｑ（先述された、ピッチが変化しない位置）がある局面（符号化フレーム）がある。そして、構築される符号化装置は、例えば、この符号化フレームにおいて、ピッチ変動のある箇所（図９の７０４ｐ）と、ピッチ変動の無い箇所（図９の７０４ｑ）のそれぞれの場所を記憶（図９のベクトルＣ、１０２ｍ）して、その場所情報（ベクトルＣ、１０２ｍ）、および、ピッチ変動点（７０４ｐ）におけるＴＷ＿ＲａｔｉｏまたはＴＷ＿Ｒａｔｉｏ＿Ｉｎｄｅｘの情報を、復号化装置へと送信する符号化装置であっても良い。そうすることで、ピッチ変動箇所のみのＴＷ＿Ｒａｔｉｏ（またはＴＷ＿Ｒａｔｉｏ＿Ｉｎｄｅｘ）を送信するだけですむため、必要最小限の通信データ量（符号化量）によって、符号化・復号化装置を構成することもできる。

こうして、ピッチが変化する位置７０４ｐと、変化しない位置７０４ｑとを含む複数の位置７０４ｘがある場合、位置７０４ｘは、多くの場合においては、ピッチが変化しない位置７０４ｑであり、変化する位置７０４ｐであることは少ない（僅かである）ことに気付く（先述）。

そこで、パラメータ１０２ｘ（図１、図２のパラメータ２０２ｉ）は、例えば、変化する位置７０４ｐを特定するデータ１０２ｍ（図９等）と、データ１０２ｍにより特定される、変化する位置７０４ｐでの比８３ｐ（を特定するデータ）とを含んでもよい。

そして、パラメータ１０２ｘは、含まれるデータ１０２ｍにより特定する位置７０４ｐの比（比８３ｐ）を、当該パラメータ１０２ｘに含まれる（データ（上述）により特定される）比８３ｐと特定してもよい。

そして、他方で、パラメータ１０２ｘは、含まれるデータ１０２ｍにより特定される位置７０４ｐ以外の他の位置（ピッチが変化しない位置７０４ｑ）での比（比８３ｑ）を、例えば、０セントの比９０ｘ（図１８）などの、ピッチが変化しない位置７０４ｑにおける比８３ｑと特定してもよい。

これにより、それぞれの位置（位置７０４ｐ、７０４ｑ）における比（比８３ｐ、８３ｑ）が何れも特定されるにも関わらず、パラメータ１０２ｘは、変化する位置７０４ｐの比８３ｐのデータのみを含み、変化しない位置７０４ｑのデータを含まず、多くの位置（変化しない位置７０４ｑ）のデータは含まず、ピッチのデータ（図１のパラメータ１０２ｘ、１０３ｘ、図２の２０４ｉ、２０３いｂ）のデータ量が、さらに十分に少なくできる。

なお、こうして、復号装置２へと入力される、信号２０４ｉ（ストリーム２０５ｉ）のピッチ（ピッチ８２２、ピッチ８２２の比８８）を符号化する符号（可変長符号９０、データ９０Ｌ（図２０、図２２））のフォーマット（図１８のテーブル８５）が開示される。

開示されるフォーマットにおいて、０セントの比８８ｘに比較的近い比８８ａの符号（可変長符号９０、符号９０ａ）は、より短い長さ（長さ１）の符号９０ａ（「０」）である一方で、０セントの比８８ｘから遠い比８８ｂの符号（可変長符号９０、符号９０ｂ）は、より長い長さ（長さ６）の符号９０ｂ（「１１１１００」）である。

そして、入力された、このフォーマットの符号（可変長符号９０、データ９０Ｌ）に対して、復号装置２により行われる処理（手続）Ｓ２（図２１）が開示される。

このような、フォーマット（図１８）および手続（処理Ｓ２）により、先述のようにして、ピッチのデータ（パラメータ１０３ｘ、２０３ｘ）のデータ量が、例えば、図２２における、第１行第３列の４８ビットから、第２行第３列の２１ビット（第３行第３列の１９ビット）への減少幅などだけ小さくされて、ピッチのデータのデータ量が、より小さくできる。

そして、例えば、このような、フォーマットおよび手続が記載された規格書による規格が定められて、本技術がより広く利用されてもよい。

これにより、より広い場面において、ピッチのデータ量が、より小さくされるようにされて、より大きく、産業の発達に寄与できる。

こうして、本技術によれば、複数の構成（可逆符号化部１０３など）が組み合わせられて、組み合わせからの相乗効果が生じる。これに対して、知られる従来例（図１３、図１４、図１９、および、その他の技術など）においては、これら複数の構成のうちの一部または全部を欠き、本技術における相乗効果が生じない。

この点で、本技術は、従来例に対して先進性を有すると考えられる。

なお、符号化装置１の一部（または全部）は、当該符号化装置１の１以上の機能が実装された集積回路（例えば、図２０の集積回路１Ｃを参照）でもよい。また、当該符号化装置１の１以上の機能を、当該符号化装置１の一部（または全部）であるコンピュータに実行させるためのコンピュータプログラム（プログラム１Ｐを参照）が構築されてもよい。

同様に、復号装置２の機能が実装された集積回路（集積回路２Ｃを参照）、コンピュータプログラム（プログラム２Ｐを参照）などが構築されてもよい。

また、このコンピュータプログラムが記憶された記憶媒体が構築されてもよいし、このコンピュータプログラムのデータのデータ構造などが構築されてもよい。

また、互いに異なる複数の実施形態での記載などの、互いに離れた箇所の複数の記載で示される複数の技術事項が、適宜組み合わせられてもよい。それらの複数の記載により、組み合わせられた形態も開示される。

また、単なる細部については、如何なる形態が採られてもよく、例えば、更なる改良発明が加えられた形態が採られてもよいし、単なる、実際の実施に際して、当業者が容易に思い付く形態などが採られてもよい。

なお、図２１における、複数のステップ（ステップＳ１０１およびＳ１０４など）が実行される順序は、適切な動作が可能である範囲内の、如何なる順序でもよい。例えば、ステップＳ１０１の順序は、ステップＳ１０４の順序よりも先でもよいし、後でもよいし、並列に実行されるなどして、同じ順序でもよい。

なお、処理により扱われる範囲としては、様々な範囲が考えられる。そして、本技術では、このような様々な範囲のうちから、上述された、ピッチ変化比（図１８の比８８、図１９の比８９）の変域の範囲（範囲８６、８７）が、より狭い範囲（先行例での範囲８７）から、より広い範囲（範囲８６）へと広げられる範囲として選択される。このような、本技術によってされた、範囲の選択に想い到ることは容易でないと考えられる。

なお、こうして、例えば、以下の各装置等が実施されてもよい。

つまり、当該復号装置（復号装置２）により受信される前記ビットストリーム（ビットストリーム１０６ｘ、２０５ｉ）は、１つのフレーム（フレーム８４Ｆ：図１６）における複数の位置（セクション８４１〜８４Ｍ）のうちで、当該ピッチ変化位置（位置７０４ｐ）における信号のみが前記オーディオ信号リコンストラクタ（時間伸縮ブロック（時間伸縮部）２０３）によりTimeWarpされ（時間伸縮の処理がされ）、他の位置の信号はTimeWarpされない（時間伸縮の処理がされない）ピッチ変化位置（位置７０４ｐ）を特定する位置情報（例えば、図９のデータ１０２ｍ）を含む復号装置が構築されてもよい。

そして、前記ピッチパラメータジェネレータ（動的時間伸縮ブロック１０２）は、検出された前記ピッチ輪郭情報（情報１０１ｘ）に基づいて、ピッチ変化位置（位置７０４ｐ（図９）、データ１０２ｍを参照）と前記ピッチ変化比（比８３ｐを参照）とを含む前記ピッチパラメータ（パラメータ１０２ｘ：例えば、ピッチ変化位置を特定する第１のピッチパラメータ１０２ｘと、ピッチ変化比を特定する第２のピッチパラメータ１０２ｘとの２つのピッチパラメータ１０２ｘなど）を生成する符号化装置が構築されてもよい。

つまり、例えば、複数の位置のうちで、ピッチ変化位置におけるピッチ変化比のデータのみが処理され、他の位置のピッチ変化比のデータが処理されなくてもよい。

そして、先述されたように、例えば、ピッチ変化位置の個数は僅かであり（少なく）、他の位置の個数は多い。

このため、少ない個数の位置（ビット変化位置）のデータの処理のみで済み、処理がされるデータのデータ量が少なくできる。

なお、ピッチ輪郭リコンストラクタ（動的時間伸縮再構築ブロック３０７：図３）等が更に設けられた符号化装置（符号化装置１ｅ：図３）などが構築されてもよい。

つまり、前記第１のエンコーダ（可逆符号化部３０３：図３（可逆符号化部１０３：図１））から出力された前記符号化ピッチパラメータ（パラメータ３０３ｘ：図３（パラメータ１０３ｘ））から、復号ピッチ変化位置（位置７０４ｐ（図９）を参照）と復号ピッチ変化比（比８３ｐを参照）とを含む復号ピッチパラメータ（パラメータ３０６ｘ）を生成する第１のデコーダ（可逆復号ブロック３０６）と、生成された前記復号ピッチパラメータ（パラメータ３０６ｘ）に従って、ピッチ輪郭情報（情報３０７ｘ（情報３０１ｘを参照））を復元するピッチ輪郭リコンストラクタ（動的時間伸縮再構築ブロック３０７）とを備え、前記ピッチシフタ（時間伸縮ブロック３０４）は、復元された前記ピッチ輪郭情報（情報３０７ｘ）である再構築ピッチ輪郭情報（情報３０７ｘ）に従って、前記入力オーディオ信号（信号３０１ｉ）のピッチ周波数（ピッチ８２２：図１５）をシフトする符号化装置（符号化装置１ｅ、ピッチ輪郭分析部３０１〜マルチプレクサ回路３０８）が構築されてもよい。

つまり、こうして、例えば、シフトで利用される情報として、復元された情報３０７ｘが利用されることにより、復号装置２で利用される、当該復号装置２で復元される情報と同じ情報が利用されて、より適切な（精度のよい）情報が利用できてもよい。

また、入力ステレオオーディオ信号（信号４０１ｉ：図４）の各オーディオフレームにミドルサイドステレオモード（ＭＳステレオモード）を適用するかどうかを確認して、前記ＭＳステレオモードの適用を示すフラグ（フラグ４０１ｘ）を生成するＭＳモードセレクタ（ＭＳ演算ブロック（ＭＳ演算部）４０１）と、生成された前記フラグ（フラグ４０１ｘ）に従って、前記入力ステレオオーディオ信号（信号４０１ｉ）をダウンミックスするダウンミキサ（ダウンミックスブロック４０２）とを備え、前記ピッチディテクタ（ピッチ輪郭分析ブロック４０３）は、生成された前記フラグ（フラグ４０１ｘ）に従って、前記入力ステレオオーディオ信号（信号４０１ｉ）がダウンミックスされたダウンミックス信号（信号４０２ａ）、または、前記入力ステレオオーディオ信号（信号４０２ｂ）のピッチ輪郭情報（情報４０３ｘ）を検出し、前記ピッチシフタ（時間伸縮ブロック４０６）は、前記ピッチ輪郭情報（情報４０３ｘ）と前記フラグ（フラグ４０１ｘ）とに従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号（信号４０２ｘ（信号４０２ａまたは４０２ｂ））のピッチ周波数（ピッチ８２２（図１５）を参照）をシフトする符号化装置（符号化装置１ｆ、ＭＳ演算部４０１〜マルチプレクサ回路４０８）が構築されてもよい。

つまり、こうして、例えば、フラグが生成されて、生成されたフラグに従った処理がされてもよい。

これにより、ＭＳステレオモードが利用される場合と、利用されない場合とがあるにも関わらず、利用されるか否かを示す、ユーザによる操作などがされなくても、生成されたフラグに応じた処理がされるだけで、適切な処理がされる。これにより、余計な操作が不要にされて、操作が簡単にできる。

また、入力ステレオオーディオ信号（信号６０１ｉ：図６）に従って、ＭＳステレオモードを選択し、前記ＭＳステレオモードの適用を示すフラグ（フラグ６０１ｘ）を生成するＭＳモードセレクタ（ＭＳ演算ブロック６０１）と、生成された前記フラグ（フラグ６０１ｘ）に従って前記入力ステレオオーディオ信号（信号６０１ｉ）をダウンミックスするダウンミキサ（ダウンミックスブロック６０２）と、第１のデコーダ（可逆復号ブロック６０８）と、ピッチ輪郭リコンストラクタ（動的時間伸縮再構築ブロック６０９）とを備え、前記ピッチディテクタ（ピッチ輪郭分析ブロック６０３）は、生成された前記フラグ（フラグ６０１ｘ）に従って、前記入力ステレオオーディオ信号（信号６０１ｉ）がダウンミックスされたダウンミックス信号（信号６０２ａ）または前記入力ステレオオーディオ信号（信号６０２ｂ）のピッチ輪郭情報（情報６０３ｘ）を検出し、前記第１のデコーダ（可逆復号ブロック６０８）は、前記第１のエンコーダ（可逆符号化ブロック６０５）から出力された前記符号化ピッチパラメータ（パラメータ６０５ｘ）から、復号ピッチ変化位置（位置７０４ｐ（図８）を参照）と復号ピッチ変化比（比８３ｐを参照）とを含む復号ピッチパラメータ（パラメータ６０８ｘ）を生成し、前記ピッチ輪郭リコンストラクタ（動的時間伸縮再構築ブロック６０９）は、生成された前記復号ピッチパラメータ（パラメータ６０８ｘ）と、前記フラグ（フラグ６０１ｘ）に従って、再構築ピッチ輪郭情報（情報６０９ｘ（情報６０３ｘを参照））を復元し、前記ピッチシフタ（時間伸縮ブロック６０６）は、復元された前記再構築ピッチ輪郭情報（情報６０９ｘ）に従って、前記入力ステレオオーディオ信号または前記ダウンミックス信号（信号６０２ｘ（信号６０２ａまたは６０２ｂ））のピッチ周波数をシフトする符号化装置（符号化装置１ｈ、ＭＳ演算部６０１〜マルチプレクサ回路４０８）が構築されてもよい。

これにより、復号装置２で利用される情報と同じ情報が利用されて、より適切な情報が利用できることと、操作が簡単にできることとが両立できる。

また、前記ピッチシフタ（図７の時間伸縮ブロック７０８）を使用するかどうかを決定する比較手段（比較部、比較スキーム７１０）を備え、前記マルチプレクサは（マルチプレクサブロック７１１）、符号化データ（信号７０９ｘ）と、前記比較手段から出力された符号化ピッチパラメータ（パラメータ７１０ｘ）とを組み合わせることでビットストリーム（ストリーム７１１ｘ）を生成する符号化装置（符号化装置１ｉ、ＭＳ演算部７０１〜マルチプレクサ回路７１１）が構築されてもよい。

つまり、例えば、比較スキーム７１０により、生成される第３の信号７０９ｘ（第３の信号１０５ｘ（図１））と、他の信号とのうちで、より適切な方の信号（例えば、ＳＮＲ（Signal to Noise Ratio：シグナルノイズレシオ、Ｓ／Ｎ比）が、より高く、ノイズがより少ない方の信号、または、データ量が、より少ない方の信号など）が、復号装置（復号装置２など）により利用される信号として選択されてもよい。

なお、他の信号は、例えば、第３の信号７０９ｘにより記録される音と同じ音が記録された、当該第３の信号７０９ｘ以外の他の信号などでもよい。

つまり、より具体的には、第３の信号７０９ｘでのＳＮＲ（Signal to Noise Ratio：シグナルノイズレシオ）と、他の信号でのＳＮＲとがそれぞれ算出されて、算出された２つのＳＮＲに基づいて、上記の選択がされてもよい。

なお、算出されるＳＮＲは、例えば、シフトがされる前の信号（図１の信号１０１ｉなどを参照）に対して、そのＳＮＲの信号（第３の信号７０９ｘ、他の信号）が有する差が、そのＳＮＲの信号が有するノイズとされた際の値などでもよい。

これにより、第３の信号７０９ｘの方が適切でないときがあるにも関わらず、そのときには、他の信号が利用され、適切な信号が用いられることが維持されて、より確実に、適切な信号が利用できる。

また、符号化装置（符号化装置１）に設けられる前記ピッチパラメータジェネレータ（例えば、図１の動的時間伸縮ブロック１０２）であって、ピッチシフトがされる前の第１のハーモニクス構造と、された後の第２のハーモニクス構造とを比較することで、前記ピッチ輪郭（情報１０１ｘ）を修正し、当該ピッチシフトを利用すべきかどうかを決定するピッチパラメータジェネレータ（動的時間伸縮ブロック１０２）が構築されてもよい。

なお、例えば、第１のピッチ輪郭が修正されないことにより、当該第１のピッチ輪郭でのピッチシフトを利用することが決定されると共に、当該第１のピッチ輪郭が、第２のピッチ輪郭へと修正されることにより、当該第２のピッチ輪郭でのピッチシフトを利用することが決定されてもよい。

そして、ハーモニクス構造（のデータ）は、例えば、それぞれの値が、信号の１以上のハーモニクスのうちの、その値に対応するハーモニクスの振幅を示す値である複数の値が含まれてなるデータなどでもよい。

そして、ピッチシフトがされる前の信号のハーモニクス構造と、された後の信号のハーモニクス構造とから、された後の信号の質を示す評価値が算出されてもよい。

そして、第１のピッチ輪郭のピッチシフトについて算出される評価値により示される質が、第２のピッチ輪郭のピッチシフトについて算出される評価値により示される質よりも、高い質である場合に、第１のピッチ輪郭が修正されないことが決定されると共に、より低い質である場合（以下である場合）には、修正されることが決定されてもよい。

これにより、第１のピッチ輪郭での質が、高い質でないときがあるにも関わらず、そのときには、第２のピッチ輪郭での処理がされて、ピッチシフトがされた後の信号の質が、高い質に維持され、確実に、信号の質が高くできる。

他方、実施形態の復号装置に関して、前記第１のデコーダ（可逆復号ブロック２０１：図２）は、分離された前記符号化ピッチパラメータ情報（パラメータ２０１ｉ）から、ピッチ変化位置（位置７０４ｐ（図９）を参照）と前記ピッチ変化比（比８３ｐを参照）とを含む前記復号ピッチパラメータ（パラメータ２０２ｉ：例えば、ピッチ変化位置を特定する第１のパラメータ２０２ｉと、ピッチ変化比を特定する第２のパラメータ２０２ｉとの２つのパラメータ２０２ｉ）を生成する復号装置（復号装置２ｃ）が構築されてもよい。

そして、当該復号装置（図５の復号装置２ｇ）は、ピッチシフトされたステレオオーディオ信号（信号５０３ｉｂＬ等：図５）の前記符号化データ（信号５０５ｉ：図５）を含む前記ビットストリーム（ストリーム５０６ｉ）を復号し、ＭＳモードディテクタ（ＭＳモード検出ブロック５０４）を備え、前記第２のデコーダ（変換デコーダブロック５０５）は、分離された前記符号化データ（信号５０５ｉ）を復号して、ピッチシフトされた前記オーディオ信号（信号５０３ｉｂＬ等）と、ＭＳモード符号化情報（情報５０４ｉ）とを生成し、前記ＭＳモードディテクタ（ＭＳモード検出ブロック５０４）は、ＭＳモードが有効にされているかどうかを、生成された前記ＭＳモード符号化情報（情報５０４ｉ）に従って検出し、ＭＳモードが有効にされるべきかどうかを示すＭＳモードフラグ（フラグ５０４Ｆ：図５）を生成し、前記ピッチ輪郭リコンストラクタ（動的時間伸縮再構築部５０２）は、前記第１のデコーダ（可逆復号ブロック５０１）から出力された、生成された前記復号ピッチパラメータ（パラメータ５０２ｉ）と、生成された前記ＭＳモードフラグ（フラグ５０４Ｆ）とに従って、ピッチ輪郭情報（情報５０３ｉａ）を復元する復号装置（復号装置１ｇ、可逆復号部５０１〜マルチプレクサ回路５０６）が構築されてもよい。

これにより、ＭＳモードが有効にされているどうかが検出され、有効にされているかどうかを示す、ユーザによる余計な操作がされなくても済んで、操作が、より簡単にできる。

なお、例えば、ブロックとは、いわゆる機能ブロックなどをいう。

符号化装置１および復号装置２において、上述の各効果が生じ、これら符号化装置１等における動作が、より適切な動作にできる。

これにより、ひいては、これら符号化装置１等の生産、使用などをする産業分野において、産業の発達に貢献できる。

１符号化装置
２復号装置
２Ｓシステム
１０１ピッチ輪郭分析部
１０２動的時間伸縮部
１０３可逆符号化部
１０４時間伸縮部
１０５変換エンコーダ
１０６マルチプレクサ
２０１可逆復号部
２０２動的時間伸縮再構築部
２０３時間伸縮部
２０４変換デコーダ
２０５デマルチプレクサ