JPWO2012046447A1

JPWO2012046447A1 - 符号化装置、復号装置、符号化方法及び復号方法

Info

Publication number: JPWO2012046447A1
Application number: JP2012537591A
Authority: JP
Inventors: 石川　智一; 智一石川; 則松　武志; 武志則松; ジョンハイシャン; ザオダン; センチョンコック
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2010-10-06
Filing date: 2011-10-05
Publication date: 2014-02-24
Also published as: US9117461B2; CN103098130B; CN103098130A; EP2626856A1; KR101809298B1; EP2626856A4; WO2012046447A1; EP2626856B1; KR20130116862A; US20130144611A1

Abstract

符号化装置（１０）であって、入力音声信号のピッチパターンを検出するピッチパターン検出部（１０１）と、ピッチパターンに基づいて、ピッチノード数を決定し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部（１０２）と、第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第１エンコーダ（１０３）と、第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくようにピッチを補正する時間伸縮部（１０４）と、補正されたピッチでの入力音声信号を符号化して符号化音声信号を生成する第２エンコーダ（１０５）と、符号化時間伸縮パラメータと符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサ（１０６）とを備える。

Description

本発明は、入力される音声信号を符号化し、または符号化された音声信号を復号する符号化装置、復号装置、符号化方法及び復号方法に関する。

符号化装置は、音声信号を効率的に符号化するよう設計されている。人間の発話の場合、音声信号の基本周波数（ピッチ）が変化することもある。これにより、音声信号のエネルギーがより広い周波数帯域に広がる。そして、ピッチが変化する音声信号を音響信号符号化装置が符号化することは、特に、低ビットレートにおいて効率的ではない。

このため、従来、時間伸縮（ＴｉｍｅＷａｒｐｉｎｇ）技術を用いて、ピッチが変化する影響を補償している（例えば、特許文献１及び非特許文献１参照）。

具体的には、時間伸縮技術を用いて、ピッチの補正（ピッチシフト）を実現する。図１Ａ及び図１Ｂは、従来のピッチをシフトする手法の一例を示す図である。つまり、図１Ａは、ピッチシフト前の音声信号のスペクトルを示す図であり、図１Ｂはピッチシフト後の音声信号のスペクトルを示す図である。

これらの図に示すように、ピッチが図１Ａの２００Ｈｚから図１Ｂの１００Ｈｚにシフトされている。このように、次のフレームのピッチを前のフレームのピッチと合わせるようにシフトすることによって、ピッチは一致したものとなる。この場合、音声信号のエネルギーは、図２Ａ〜図２Ｃに示すように収束する。

図２Ａは、従来の音声信号のピッチシフトにおけるピッチシフト前のスイープ信号を示す図である。図２Ｂは、従来の音声信号のピッチシフトにおけるピッチシフト後のスイープ信号を示す図である。これらの図に示すように、ピッチシフトを行うことで、音声信号のピッチは一定になる。

また、図２Ｃは、従来の音声信号のピッチシフトにおけるピッチシフト前後のスペクトルを示す図である。ここで、同図のグラフａは、ピッチシフト前のスペクトルを示し、同図のグラフｂは、ピッチシフト後のスペクトルを示す。同図に示すように、ピッチシフト後のエネルギーが狭い帯域幅に収まっている。

ここで、ピッチシフトは、たとえば再サンプリング方法を用いて実現される。一致したピッチを維持するため、再サンプリングする割合（以下、再サンプリングレートとする）は、ピッチ変化率に応じて変化する。フレームを符号化する際、ピッチトラッキングアルゴリズムを適用することによって、このフレームのピッチパターンが得られる。

具体的には、ピッチトラッキング用に当該フレームを小さなセクションに分割する。隣接するセクションは重なり合っていてもよい。ピッチトラッキングアルゴリズムとしては、たとえば、自己相関に基づいたピッチトラッキングアルゴリズム（例えば、非特許文献２参照）と、周波数領域に基づいたピッチ検出方法（例えば、非特許文献３参照）とが存在する。

各セクションには、対応するピッチの値がある。図３及び図４は、従来の音声信号のピッチパターンの計算手法を示す図である。図３は、ピッチが時間変化することを示している。また、図４に示すように、１つのピッチの値は、音声信号のセクション１つから算出される。なお、ピッチパターンは、ピッチの値を連結したものである。

ピッチシフトにおいては、再サンプリングレートは、ピッチ変化率に比例している。また、ピッチ変化率を示す情報は、ピッチパターンから抽出される。セントと半音は、このピッチ変化率を測定するのによく用いられる。図５は、セントと半音の尺度を示す図である。セント（ｃｅｎｔ、同図ではｃ）は、以下のように隣接するピッチのピッチ比（ピッチ変化率）から算出される。

ピッチ変化率に従って、再サンプリングを音声信号に適用する。一致したピッチを得るために、他のセクションのピッチを基準ピッチまでシフトする。例えば、次のセクションのピッチが前のピッチよりも高ければ、２つのピッチ間のセント差に比例する、より低いレートに再サンプリングレートを設定する。また、次のセクションのピッチが前のピッチよりも低い場合は、再サンプリングレートを高いレートに設定する。

より高いトーンに対し、再生スピードを下げることによりオーディオの再生スピードを調整できる記録再生機を考えると、そのトーンはより低い周波数にシフトされている。これは、ピッチ変化率に比例する信号を再サンプリングするという考えと同じことである。

図６および図７は、時間伸縮方式を用いた符号化装置及び復号装置を示す図である。図６に示すように、符号化装置は、入力信号をピッチ比情報を用いて時間伸縮させてから、変換符号化を行う。また、当該ピッチ比情報は、図７に示す逆時間伸縮を行う復号装置で必要となる。

このため、ピッチ比は、符号化装置において符号化される必要がある。先行技術では、これらのピッチ比情報を符号化するのに、小さいピッチ比に対応した固定テーブルが用いられ、また、ピッチ比を符号化するのに用いることのできるビット数は限られている条件下で、時間伸縮（ＴｉｍｅＷａｒｐｉｎｇ）処理により符号化音質向上を目指している。

米国特許出願公開第２００８／０００４８６９号明細書

ＢｅｒｎｄＥｄｌｅｒ、"ＡＴｉｍｅ−ｗａｒｐｐｅｄＭＤＣＴＡｐｐｒｏａｃｈＴｏＳｐｅｅｃｈＴｒａｎｓｆｏｒｍＣｏｄｉｎｇ"、ＡＥＳ第１２６回会議、ミュンヘン、ドイツ、２０００年５月ＭｉｌａｎＪｅｌｉｎｅｋ、"ＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｉｎｇＡｄｖａｎｃｅｓｉｎＶＭＲ−ＷＢＳｔａｎｄａｒｄ"、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ、ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、第１５巻第４号、２００７年５月ＸｕｅｊｉｎｇＳｕｎ、"ＰｉｔｃｈＤｅｔｅｃｔｉｏｎａｎｄＶｏｉｃｅＱｕａｌｉｔｙＡｎａｌｙｓｉｓＵｓｉｎｇＳｕｂｈａｒｍｏｎｉｃ−ｔｏ−ＨａｒｍｏｎｉｃＲａｔｉｏ "、ＩＥＥＥＩＣＡＳＳＰ、３３３−３３６、オーランド、２００２年

時間伸縮手法を用いることで、１フレーム内で一致したピッチを得て、符号化効率の向上を実現することができる。この時間伸縮手法は、ある程度までは、ピッチトラッキングの精度に依存する。しかしながら、音声信号の振幅および周期は変化するため、ピッチパターンを精度良く検出するのは困難である。

ピッチパターンの検出精度を向上するために、スムージングや微調整閾値パラメータなど、後処理方式がいくつか導入されているが、これらの方式は特定のデータベースに基づくものである。不正確なピッチパターンに基づいて時間伸縮手法を適用すれば、音質は低下し、時間伸縮情報を送信するためにビットが浪費されることになる。このため、検出したピッチパターンにむやみに従うことがないような時間伸縮手法の設計が必要である。

今のところ、先行技術における時間伸縮手法には、ピッチパターン情報を符号化する効率的な方法がない。先行技術では、小さい変化率のピッチパターンにだけ対応した固定テーブルが用いられている。しかしながら、音声信号のピッチ変化率が大きい場合には、当該固定テーブルでは限界があり、時間伸縮手法での性能が低下する。このように、ピッチが著しく変化する状況では小さい固定テーブルだと不十分であるが、より大きなピッチ変化率に対応した固定テーブルではテーブルサイズが大きくなるため、より多くのビットを使用してピッチ比情報を符号化する必要がある。

これは、特に、低ビットレートの符号化において、代償が大きくなり得る。つまり、時間伸縮情報の送信時に多くのビットを使用することによって符号化効率を向上させることはできるが、音声信号の符号化用のビットがあまり残されず、音質が劣化する原因になる。

ゆえに、時間伸縮手法においてより少ないビット数で効率的に符号化を行うことができれば、確保しておいた多くのビットを音声信号の符号化に使用することができる。これにより、ピッチの変化が大きい音声信号であっても、音質を向上させることができる。

そこで、本発明は、このような問題に鑑みてなされたものであり、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる符号化装置、復号装置、符号化方法及び復号方法を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る符号化装置は、入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出部と、検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部と、生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第１エンコーダと、生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも１つのピッチを補正する時間伸縮部と、前記時間伸縮部が補正したピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第２エンコーダと、前記第１エンコーダが生成した前記符号化時間伸縮パラメータと前記第２エンコーダが生成した前記符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサとを備える。

これによれば、符号化装置は、検出したピッチパターンに基づいて、ピッチノード数を決定し、当該ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。そして、符号化装置は、第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくように、ピッチを補正し、補正したピッチでの入力音声信号を符号化した符号化音声信号と第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータとを多重化したビットストリームを生成する。このように、符号化装置は、検出したピッチパターンに従って、最適なピッチノード数を決定することで、第一時間伸縮パラメータを生成してピッチシフトを行う。このため、ピッチの変化が大きい音声信号であっても、情報量の大きな固定テーブルを必要としないため、多くのビット数を使用することなく符号化を行うことができる。これにより、当該符号化装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

また、好ましくは、さらに、前記第１エンコーダが生成した前記符号化時間伸縮パラメータを復号し、前記所定期間のピッチパターンにおけるピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する復号部を備え、前記時間伸縮部は、前記復号部が生成した前記第二時間伸縮パラメータを用いて、前記ピッチを補正する。

これによれば、符号化装置は、生成した符号化時間伸縮パラメータを復号し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成し、生成した第二時間伸縮パラメータを用いて、ピッチを補正する。つまり、符号化装置は、ピッチシフトに第一時間伸縮パラメータを用いるのではなく、第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータを復号して生成した第二時間伸縮パラメータを用いて、ピッチシフトを行う。ここで、当該第二時間伸縮パラメータは、復号装置で音声信号が復号される際に使用されるパラメータである。このため、符号化装置は、復号装置で使用されるパラメータと同じパラメータを使用してピッチシフトを行うことで、復号時の時間伸張処理の計算精度を向上させることができる。これにより、当該符号化装置は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。

また、好ましくは、前記入力音声信号は、２つのチャンネルの信号を有し、前記符号化装置は、さらに、前記２つのチャンネルの信号におけるピッチパターンの類似度を算出し、算出した前記類似度が所定の値よりも大きいか否かを示すフラグを生成するＭ／Ｓ計算部と、生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記２つのチャンネルの信号をダウンミックスして得られる１つの信号を出力し、前記類似度が前記所定の値以下であることを示す場合には、前記２つのチャンネルの信号を出力するダウンミックス部とを備え、前記ピッチパターン検出部は、前記ダウンミックス部が出力した信号のそれぞれについて、ピッチパターンを検出する。

これによれば、符号化装置は、入力音声信号である２つのチャンネルの信号におけるピッチパターンの類似度を算出し、当該類似度が所定の値よりも大きい場合には、２つのチャンネルの信号をダウンミックスして得られる１つの信号を出力し、当該類似度が所定の値以下の場合には、２つのチャンネルの信号を出力する。つまり、符号化装置は、２つのチャンネルの信号のピッチパターンの類似度が高い場合には、１つの信号のピッチパターンに基づいて、２つのチャンネルの信号に共通する１つの第一時間伸縮パラメータを生成する。このように、符号化装置は、２つのチャンネルの信号を符号化するのに、１つの第一時間伸縮パラメータを符号化すればよく、使用するビット数を低減することができる。このため、当該符号化装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

また、好ましくは、さらに、前記第２エンコーダが生成した前記符号化音声信号である第一符号化信号と、他の符号化方式によって前記入力音声信号が符号化された第二符号化信号とを比較する比較部を備え、前記比較部は、前記第一符号化信号を、前記第１エンコーダが生成した前記符号化時間伸縮パラメータを用いて復号し、前記入力音声信号との差分である第一差分を算出し、前記第二符号化信号を復号し、前記入力音声信号との差分である第二差分を算出し、前記第一差分が前記第二差分よりも小さい場合に、前記第一符号化信号を出力し、前記マルチプレクサは、前記比較部が出力した前記第一符号化信号と前記符号化時間伸縮パラメータとを多重化して、前記ビットストリームを生成する。

これによれば、符号化装置は、生成した符号化音声信号である第一符号化信号と、他の符号化方式によって入力音声信号が符号化された第二符号化信号とを比較し、第一符号化信号を復号した信号と入力音声信号との差分が、第二符号化信号を復号した信号と入力音声信号との差分よりも小さい場合に、第一符号化信号を出力する。つまり、符号化装置は、符号化の精度が良かった場合にのみ、生成した符号化音声信号を出力する。これにより、当該符号化装置は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。

また、上記目的を達成するために、本発明の一態様に係る復号装置は、ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離するデマルチプレクサと、前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第１復号部と、前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第２復号部と、前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも１つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮部とを備える。

これによれば、復号装置は、ビットストリームから符号化音声信号と符号化時間伸縮パラメータとを分離し、符号化時間伸縮パラメータを復号して、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する。そして、復号装置は、符号化音声信号を復号してピッチが補正された音声信号を生成し、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチを変更することで、音声信号を補正前の音声信号に変換する。このように、復号装置は、符号化時間伸縮パラメータを復号して第二時間伸縮パラメータを生成し、ピッチノード数のピッチをピッチシフト前のピッチに戻すことで、音声信号をピッチシフト前の音声信号に戻す。このため、復号装置は、ピッチの変化が大きい音声信号を復号する場合であっても、情報量の大きな固定テーブルを使用することなく生成された符号化時間伸縮パラメータを復号するために、当該情報量の大きな固定テーブルを必要としない。つまり、復号装置は、多くのビット数を使用することなく復号を行うことができる。これにより、当該復号装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

また、好ましくは、前記音声信号は、２つのチャンネルの信号を有し、前記復号装置は、さらに、前記２つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きいか否かを示すフラグを生成するＭ／Ｓモード検出部を備え、前記第１復号部は、生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記２つのチャンネルの信号に共通する前記第二時間伸縮パラメータを生成し、前記類似度が前記所定の値以下であることを示す場合には、前記２つのチャンネルの信号それぞれについて前記第二時間伸縮パラメータを生成する。

これによれば、復号装置は、音声信号である２つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きい場合には、２つのチャンネルの信号に共通する第二時間伸縮パラメータを生成し、当該類似度が所定の値以下である場合には、２つのチャンネルの信号それぞれについて第二時間伸縮パラメータを生成する。つまり、復号装置は、２つのチャンネルの信号のピッチパターンの類似度が高い場合には、１つの第二時間伸縮パラメータを生成する。このように、復号装置は、２つのチャンネルの信号を復号するのに、１つの第二時間伸縮パラメータを用いるだけでよいので、使用するビット数を低減することができる。このため、当該復号装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

また、本発明は、このような符号化装置または復号装置として実現することができるだけでなく、当該符号化装置または復号装置に含まれる処理部が行う特徴的な処理をステップとする符号化方法または復号方法としても実現することができる。また、符号化方法または復号方法に含まれる特徴的な処理をコンピュータに実行させるプログラムや集積回路として実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

本発明に係る符号化装置によれば、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

図１Ａは、従来のピッチをシフトする手法の一例を示す図である。図１Ｂは、従来のピッチをシフトする手法の一例を示す図である。図２Ａは、従来の音声信号のピッチシフトにおけるピッチシフト前のスイープ信号を示す図である。図２Ｂは、従来の音声信号のピッチシフトにおけるピッチシフト後のスイープ信号を示す図である。図２Ｃは、従来の音声信号のピッチシフトにおけるピッチシフト前後のスペクトルを示す図である。図３は、従来の音声信号のピッチパターンの計算手法を示す図である。図４は、従来の音声信号のピッチパターンの計算手法を示す図である。図５は、セントと半音の尺度を示す図である。図６は、時間伸縮方式を用いた符号化装置及び復号装置を示す図である。図７は、時間伸縮方式を用いた符号化装置及び復号装置を示す図である。図８は、本発明の実施の形態１に係る符号化装置の機能的な構成を示すブロック図である。図９は、本発明の実施の形態１に係る動的時間伸縮部が決定するピッチノード数を説明するための図である。図１０は、本発明の実施の形態１に係る符号化装置が入力音声信号を符号化する処理の一例を示すフローチャートである。図１１は、本発明の実施の形態２に係る符号化装置が行う動的時間伸縮方式を説明するための図である。図１２は、本発明の実施の形態２に係る動的時間伸縮部が生成する第一時間伸縮パラメータを説明するための図である。図１３は、本発明の実施の形態３に係る復号装置の機能的な構成を示すブロック図である。図１４は、本発明の実施の形態３に係る復号装置が符号化音声信号を復号する処理の一例を示すフローチャートである。図１５は、本発明の実施の形態５に係る符号化装置の機能的な構成を示すブロック図である。図１６は、本発明の実施の形態６に係る符号化装置の機能的な構成を示すブロック図である。図１７は、本発明の実施の形態７に係る復号装置の機能的な構成を示すブロック図である。図１８は、本発明の実施の形態８に係る符号化装置の機能的な構成を示すブロック図である。図１９は、本発明の実施の形態９に係る符号化装置の機能的な構成を示すブロック図である。

以下、図面を参照しながら、本発明の実施の形態に係る符号化装置及び復号装置について、説明する。

なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。本発明は、請求の範囲だけによって限定される。よって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。

つまり、以下の実施の形態は、様々な進歩性の原理を説明する単なる例である。ここに記載される内容の変形例は、当業者にとって自明であると理解されよう。

（実施の形態１）
実施の形態１では、動的時間伸縮（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）方式を用いた符号化装置を提案する。

図８は、本発明の実施の形態１に係る符号化装置１０の機能的な構成を示すブロック図である。

同図に示すように、符号化装置１０は、入力される音声信号である入力音声信号を符号化する装置であり、ピッチパターン検出部１０１、動的時間伸縮部１０２、可逆エンコーダ１０３、時間伸縮部１０４、変換エンコーダ１０５及びマルチプレクサ１０６を備えている。

ピッチパターン検出部１０１は、入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出する。

つまり、左右のチャンネルの入力音声信号それぞれの１フレームがピッチパターン検出部１０１に入力される。そして、ピッチパターン検出部１０１は、左右のチャンネルの入力音声信号のピッチパターンをそれぞれ検出する。ピッチパターン検出アルゴリズムは、先行技術に記載されている。

動的時間伸縮部１０２は、ピッチパターン検出部１０１が検出したピッチパターンに基づいて、当該所定期間に検出するピッチの数であるピッチノード数を決定し、決定したピッチノード数と、ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。

具体的には、動的時間伸縮部１０２は、ピッチパターンに基づいてピッチノード数Ｍを決定し、図９に示されているように、１フレームをピッチノード数Ｍ個の重なり合ったセクションに分割する。図９は、本発明の実施の形態１に係る動的時間伸縮部１０２が決定するピッチノード数を説明するための図である。ここで、ピッチノード数Ｍの数値は限定されないが、ピッチパターンを解析して得られるピッチノードの最適数であるのが好ましい。

そして、動的時間伸縮部１０２は、１フレーム内のピッチノード数Ｍ個のセクションから、ピッチノード数Ｍ個のピッチを算出する。そして、動的時間伸縮部１０２は、算出したピッチノード数Ｍ個のピッチから、ピッチ変化位置を取得し、ピッチ変化率を算出する。

このように、動的時間伸縮部１０２は、ピッチパターンを処理してハーモニック構造に基づき、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。

可逆エンコーダ１０３は、動的時間伸縮部１０２が生成した第一時間伸縮パラメータを符号化して、符号化時間伸縮パラメータを生成する第１のエンコーダである。

つまり、第一時間伸縮パラメータは、可逆エンコーダ１０３に送信される。そして、可逆エンコーダ１０３は、第一時間伸縮パラメータを圧縮し、符号化時間伸縮パラメータを生成する。そして、符号化時間伸縮パラメータは、マルチプレクサ１０６に送信される。

時間伸縮部１０４は、動的時間伸縮部１０２が生成した第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数Ｍ個のピッチが所定の基準値に近づくように、ピッチノード数Ｍ個のピッチのうち少なくとも１つのピッチを補正する。

つまり、第一時間伸縮パラメータは時間伸縮部１０４に送信される。時間伸縮部１０４の処理は、先行技術に記載されている。時間伸縮部１０４は、第一時間伸縮パラメータに応じて、入力音声信号を再サンプリングする。入力音声信号がステレオ信号の場合、左右の信号は、対応する第一時間伸縮パラメータに応じて、それぞれピッチシフト（時間伸縮）される。

変換エンコーダ１０５は、時間伸縮部１０４が補正したピッチでの入力音声信号を符号化して、符号化音声信号を生成する第２のエンコーダである。

つまり、時間伸縮された左右チャンネルの信号は、変換エンコーダ１０５に送信され、符号化される。そして、符号化音声信号と変換エンコーダ情報とは、マルチプレクサ１０６に送信される。

マルチプレクサ１０６は、第１のエンコーダである可逆エンコーダ１０３が生成した符号化時間伸縮パラメータと、第２のエンコーダである変換エンコーダ１０５が生成した符号化音声信号と変換エンコーダ情報とを多重化して、ビットストリームを生成する。

なお、ピッチパターン検出部１０１に入力される入力音声信号は、ステレオ信号である必要はなく、モノラル信号でもマルチ信号でもかまわない。符号化装置１０による動的時間伸縮方式は、どのような数のチャンネルにも適用可能である。

次に、符号化装置１０が入力音声信号を符号化する処理について、説明する。

図１０は、本発明の実施の形態１に係る符号化装置１０が入力音声信号を符号化する処理の一例を示すフローチャートである。

同図に示すように、まず、ピッチパターン検出部１０１は、入力音声信号のピッチパターンを検出する（Ｓ１０２）。

そして、動的時間伸縮部１０２は、ピッチパターン検出部１０１が検出したピッチパターンに基づいて、ピッチノード数を決定する（Ｓ１０４）。

そして、動的時間伸縮部１０２は、当該ピッチパターンに基づいて、決定したピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する（Ｓ１０６）。

次に、可逆エンコーダ１０３は、動的時間伸縮部１０２が生成した第一時間伸縮パラメータを符号化して、符号化時間伸縮パラメータを生成する（Ｓ１０８）。

また、時間伸縮部１０４は、動的時間伸縮部１０２が生成した第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくように、ピッチノード数のピッチのうち少なくとも１つのピッチを補正する（Ｓ１１０）。

そして、変換エンコーダ１０５は、時間伸縮部１０４が補正したピッチでの入力音声信号を符号化して、符号化音声信号を生成する（Ｓ１１２）。

そして、マルチプレクサ１０６は、可逆エンコーダ１０３が生成した符号化時間伸縮パラメータと、変換エンコーダ１０５が生成した符号化音声信号と変換エンコーダ情報とを多重化して、ビットストリームを生成する（Ｓ１１４）。

以上により、符号化装置１０が入力音声信号を符号化する処理は、終了する。

上記課題で述べたように、不正確なピッチパターンは、時間伸縮後の音質低下をもたらすことになる。動的時間伸縮方式は、この課題を克服するために提案された。これは、ハーモニック構造も考慮した時間伸縮方式である。つまり、時間伸縮の間、ハーモニクスはピッチシフトとともに修正され、時間伸縮中に信号のハーモニック構造を考慮する必要がある。そして、符号化装置１０によるハーモニック時間伸縮方式は、ハーモニック構造の解析に基づいてピッチパターンを修正する。そして、この方式は、時間伸縮中にハーモニック構造を考慮することによって音質を改善する。

このように、実施の形態１では、動的時間伸縮方式でピッチパターンを処理し、動的時間伸縮のためのパラメータを生成する。このパラメータは、ピッチの数と時間伸縮が適用された位置とそれら対応位置の時間伸縮値とを表す。提案した動的時間伸縮方式により、音質は改善される。また、可逆符号化も導入して、さらに、時間伸縮値を符号化するビットを削減する。

以上のように、本実施の形態１に係る符号化装置１０によれば、検出したピッチパターンに基づいて、ピッチノード数を決定し、当該ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。そして、符号化装置１０は、第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくように、ピッチを補正し、補正したピッチでの入力音声信号を符号化した符号化音声信号と第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータとを多重化したビットストリームを生成する。このように、符号化装置１０は、検出したピッチパターンに従って、最適なピッチノード数を決定することで、第一時間伸縮パラメータを生成してピッチシフトを行う。このため、ピッチの変化が大きい音声信号であっても、情報量の大きな固定テーブルを必要としないため、多くのビット数を使用することなく符号化を行うことができる。これにより、符号化装置１０は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

（実施の形態２）
本実施の形態２では、符号化装置１０が実行する、ハーモニック構造に応じたピッチパターンを修正する方式を備えた動的時間伸縮方式を説明する。

上記課題で説明したように、ピッチパターンの検出は、音声信号の振幅と周期が変化するため、難しい課題である。時間伸縮用にピッチパターン情報をそのまま用いる場合、ピッチパターンが不正確だと時間伸縮の性能に影響を与える。時間伸縮の間、ピッチシフトに比例して信号のハーモニクスは修正されるので、時間伸縮のハーモニクスへの影響を考慮しなければならない。

本実施の形態２では、動的時間伸縮方式を提案する。ハーモニック構造を解析することによってピッチパターンを修正し、効果的な第一時間伸縮パラメータを生成する。

この動的時間伸縮方式は、３つの部分からなる。第１部は、ハーモニック構造に応じてピッチパターンを修正する。第２部は、時間伸縮前後のハーモニック構造を比較することによって、時間伸縮の性能を評価する。第３部は、第一時間伸縮パラメータの効果的な表現方式を用いる。先行技術で述べられているようなピッチパターン全体を符号化するのではなく、可逆符号化を用いて、時間伸縮が行われている位置情報を符号化し、その対応位置の時間伸縮値を符号化する。

第１部では、ピッチパターンを修正する。実施の形態１によると、フレームをピッチ算出用にＭ個のセクションに分割する。ピッチパターンは、Ｍ個のピッチ値（ｐｉｔｃｈ_１，ｐｉｔｃｈ_２，…ｐｉｔｃｈ_Ｍ）から構成される。先行技術では、ピッチを、基準ピッチ近くまでシフトする。時間伸縮後、一致した基準ピッチが得られる。

これに対し、提案した動的時間伸縮方式では、信号のハーモニクスを基準ピッチのハーモニクス近くまでシフトすることができる。一例を図１１に示す。図１１は、本発明の実施の形態２に係る符号化装置１０が行う動的時間伸縮方式を説明するための図である。

同図に示すように、検出されたピッチは、基準ピッチのハーモニクスに近い。つまり、Δｆ_１＞Δｆ_２であるため、検出ピッチを基準ピッチまでシフトする場合には大きな伸縮値を用いる必要があるが、検出ピッチを基準ピッチのハーモニクスまでシフトする場合には小さな伸縮値を用いることができる。

このように、動的時間伸縮方式では、ピッチパターンを修正し、ハーモニック成分をシフトすることができる。修正処理を以下に述べる。

まず、動的時間伸縮方式では、検出ピッチと基準ピッチとの差を比較する。具体的には、基準ピッチをｐｉｔｃｈ_ｒｅｆとし、セクションｉの検出ピッチをｐｉｔｃｈ_ｉとした場合、ｐｉｔｃｈ_ｉ＞ｐｉｔｃｈ_ｒｅｆであれば、検出ピッチｐｉｔｃｈ_ｉは基準ピッチｐｉｔｃｈ_ｒｅｆに近いのか、それとも、基準ピッチのハーモニクスｋ×ｐｉｔｃｈ_ｒｅｆに近いのかを調べる。ここで、ｋは、ｋ＞１の整数である。

そして、次の式を満たすｋが存在すれば、検出ピッチｐｉｔｃｈ_ｉを基準ハーモニクスｋ×ｐｉｔｃｈ_ｒｅｆまでシフトする。検出ピッチｐｉｔｃｈ_ｉは、ｋ×ｐｉｔｃｈ_ｒｅｆに修正される。

また、ｐｉｔｃｈ_ｉ＜ｐｉｔｃｈ_ｒｅｆであれば、基準ピッチｐｉｔｃｈ_ｒｅｆは、検出ピッチｐｉｔｃｈ_ｉに近いのか、それとも、検出ピッチｐｉｔｃｈ_ｉのハーモニクスに近いのかを調べる。次の式を満たすｋが存在すれば、検出ピッチｐｉｔｃｈ_ｉのハーモニクスを基準ピッチまでシフトする。ゆえに、検出ピッチｐｉｔｃｈ_ｉはｋ×ｐｉｔｃｈ_ｉに修正される。

第２部では、この修正されたピッチパターンに基づいて、時間伸縮を適用し、時間伸縮前後のハーモニック構造を比較することによって性能を評価する。時間伸縮前後のハーモニック成分の和を、本実施の形態２における性能評価の基準として用いる。

ハーモニクスの算出を以下に示す。

ここで、ｑは、ハーモニック成分の数である。本実施の形態２では、ｑ＝３を推奨する。Ｓ（）は、信号のスペクトルを示しており、ｐｉｔｃｈ_ｉは、ピッチパターンから検出されるピッチｐｉｔｃｈ_１，ｐｉｔｃｈ_２，…ｐｉｔｃｈ_Ｍである。

時間伸縮後、ハーモニクスの和は以下のようになる。

ここで、Ｓ’（）は、時間伸縮後の信号のスペクトルを表している。

時間伸縮前、信号はｐｉｔｃｈ_１，ｐｉｔｃｈ_２，…ｐｉｔｃｈ_Ｍのハーモニクスで構成されている。これらのハーモニック成分間のエネルギー分布を表すために、ハーモニック比ＨＲを定義する。

は、ピッチｐｉｔｃｈ_１，ｐｉｔｃｈ_２，…ｐｉｔｃｈ_Ｍのハーモニクスの和で構成されている。

時間伸縮後、ハーモニック比ＨＲ’は、以下のように算出される。

Ｈ’（ｐｉｔｃｈ_ｒｅｆ）は、時間伸縮後の基準ピッチのハーモニクスの和である。

は、時間伸縮後のピッチｐｉｔｃｈ_１，ｐｉｔｃｈ_２，…ｐｉｔｃｈ_Ｍのハーモニクスの和で構成されている。

時間伸縮後、エネルギーは基準ピッチに制限されると考えられ、他のピッチのエネルギーは抑制される。ゆえに、ＨＲ’＞ＨＲと考えられる。ＨＲ’＞ＨＲであって、時間伸縮をこのフレームに対して適用する場合は、時間伸縮が有効であるとみなされる。

動的時間伸縮の第３部は、効率的な方式を用いて、第一時間伸縮パラメータを生成することである。１フレーム内でのピッチ変化位置は１フレーム内にさほど多くないため、効率的な方式では、ピッチ変化位置とその値Δｐ_ｉとをそれぞれ符号化するよう設計してもよい。

まず、修正されたピッチパターンを正規化する。次に、隣接する修正ピッチの差分を計算する。

先行技術との違いは、動的時間伸縮方式では、

のベクトル全体を符号化しない点である。ベクトルＣを用いて、Δｐ_ｉ≠１である位置を示す。この位置は、時間伸縮が行われている位置である。Δｐ_ｉ≠１である時間伸縮値Δｐ_ｉのみを、可逆エンコーダ１０３によって符号化する。

Δｐ_ｉ＝１であれば、Ｃ（ｉ）を１に設定し、そうでなければ、Ｃ（ｉ）を０に設定する。ベクトルＣの各要素は、修正ピッチパターンのセクション１つに対応する。ベクトルＣの設定例を図１２に示す。図１２は、本発明の実施の形態２に係る動的時間伸縮部１０２が生成する第一時間伸縮パラメータを説明するための図である。

具体的には、動的時間伸縮部１０２は、ベクトルＣ（ピッチ変化位置）とΔｐ_ｉ≠１である時間伸縮値（ピッチ変化率）Δｐ_ｉとを、以下のステップ１〜３のいずれかに示す方式で符号化する。なお、どの方式を選択するのか示すため、フラグＡを生成する。

ステップ１：動的時間伸縮部１０２は、対象のフレームにピッチ変化位置があるか否かを調べる。Ｎ＝０であれば、ピッチ変化位置がないことを意味する。ここで、Ｎは、ピッチ変化位置の数、つまり、Δｐ_ｉ≠１のセクション数である。そして、動的時間伸縮部１０２は、フラグＡを０に設定する。この場合、動的時間伸縮部１０２は、フラグＡのみを可逆エンコーダ１０３に送信する。

ステップ２：動的時間伸縮部１０２は、対象のフレームに１以上のピッチ変化位置があれば、Δｐ_ｉ≠１である時間伸縮値Δｐ_ｉとベクトルＣとを可逆エンコーダ１０３に送信する必要がある。

であれば、これはピッチ変化位置が多数存在することを意味するが、この状態の場合は、ベクトルＣとΔｐ_ｉ≠１であるΔｐ_ｉとをそのまま符号化するほうがより効率的である。

この場合、フラグＡを１に設定し、Ｍビットを用いてベクトルＣを符号化する。例えば、ベクトルＣ＝００００１１１１の場合、８ビットを用いてこのベクトルＣを表す。動的時間伸縮部１０２は、フラグＡ、ベクトルＣおよびΔｐ_ｉ≠１であるΔｐ_ｉを、可逆エンコーダ１０３に送信する。

ステップ３：Ｎ＞０かつ以下の式を満たす場合は、ピッチ変化位置が少ないことを意味している。

この場合、ピッチ変化位置をそのまま符号化するほうがより効率的である。このため、フラグＡを２に設定し、ｌｏｇ_２Ｍビットを用いてベクトルＣで０とマークされた位置を符号化する。ｌｏｇ_２（Ｍ／ｌｏｇ_２Ｍ）ビットを用いて、Ｎ、つまり、ピッチ変化位置数を符号化する。

例えば、ベクトルＣ＝１０１１１１１１の場合、ピッチ変化位置は２である。位置２を符号化するのに３ビットが用いられる。動的時間伸縮部１０２は、フラグＡ、ピッチ変化位置数Ｎ、ピッチ変化位置、および、Δｐ_ｉ≠１であるΔｐ_ｉを、可逆エンコーダ１０３に送信する。

Δｐ_ｉを統計的に解析すると、値Δｐ_ｉが生じる確率は均一でなく、可逆符号化を用いてビットレートを残しておくことができる。可逆エンコーダ１０３は、算術符号化やハフマン符号化などにより、Δｐ_ｉ≠１であるピッチ変化率Δｐ_ｉを符号化する。

なお、複雑度を低減するため、動的時間伸縮部１０２は、最初の２つの方式（ステップ１及び２）を適用するだけでもよい。

先行技術では、ピッチパターンの情報は、圧縮方式を用いることなくそのままデコーダに送信される。ここで、本願発明者らは、鋭意研究の結果、時間伸縮のピッチパターンを統計的に解析すると、時間伸縮は、信号の１フレーム内でピッチが変化する位置数点で行われるだけであることを見出した。

ゆえに、時間伸縮が適用された情報のみを符号化するほうがより効率的である。そして、ピッチ変化が生じる均一ではない確率に応じ、第一時間伸縮パラメータを符号化するために、可逆符号化を用いてビットを確保することができる。

本動的時間伸縮方式は、時間伸縮が適用された位置情報とその対応位置の時間伸縮値で構成されている。このため、先行技術に記載されているような固定テーブルを用いてピッチパターン全体を符号化せずにビットが確保される。本動的時間伸縮方式は、また、時間伸縮値がより大きな範囲であっても対応できる。確保されたビットは入力音声信号の符号化に用いられ、時間伸縮値の範囲が大きいほど音質は改善される。

以上のように、本実施の形態２における動的時間伸縮方式によれば、時間伸縮でハーモニック構造を再構成することができる。エネルギーは基準ピッチとそのハーモニック成分に制限されているため、符号化効率が改善される。また、本方式により、ピッチ検出の精度への依存度は低減され、符号化の性能が改善される。第一時間伸縮パラメータを効率的に符号化する本方式は、ビットレートを削減することによって音質を向上させるので、ピッチ変化率がより大きい符号化信号に対応することができる。

（実施の形態３）
本実施の形態３では、動的時間伸縮方式を備えた復号装置を提案する。図１３は、本発明の実施の形態３に係る復号装置２０の機能的な構成を示すブロック図である。

同図に示すように、復号装置２０は、符号化装置１０で符号化された符号化音声信号を復号する装置であり、可逆デコーダ２０１、動的時間伸縮再構成部２０２、時間伸縮部２０３、変換デコーダ２０４及びデマルチプレクサ２０５を備えている。

デマルチプレクサ２０５は、入力されるビットストリームを、符号化時間伸縮パラメータと変換エンコーダ情報と符号化音声信号とに分離する。

ここで、入力されるビットストリームは、符号化装置１０のマルチプレクサ１０６が出力するビットストリームであり、具体的には、ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータと、変換エンコーダ情報とが多重化されたビットストリームである。

可逆デコーダ２０１及び動的時間伸縮再構成部２０２は、符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、当該ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、当該ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第１の復号部である。

つまり、デマルチプレクサ２０５は、符号化時間伸縮パラメータを可逆デコーダ２０１に送信する。そして、可逆デコーダ２０１は、符号化時間伸縮パラメータを復号し、復号時間伸縮パラメータを生成する。復号時間伸縮パラメータは、フラグ、時間伸縮が適用される位置情報、および、それに対応する時間伸縮値Δｐ_ｉから構成される。

また、復号時間伸縮パラメータは、動的時間伸縮再構成部２０２に送信される。動的時間伸縮再構成部２０２は、復号時間伸縮パラメータから第二時間伸縮パラメータを生成する。

変換デコーダ２０４は、符号化音声信号を復号し、ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第２の復号部である。

つまり、変換デコーダ２０４は、変換エンコーダ情報に基づきデマルチプレクサ２０５から符号化音声信号を受信する。そして、変換デコーダ２０４は、時間伸縮された符号化音声信号を復号する。

時間伸縮部２０３は、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチノード数のピッチのうち少なくとも１つのピッチを変更することで、ピッチが補正された音声信号を補正前の音声信号に変換する。

つまり、時間伸縮部２０３は、第二時間伸縮パラメータを受信し、入力される時間伸縮された左右チャンネルの信号に、時間伸縮を適用する。時間伸縮の処理は、実施の形態１の時間伸縮部１０４と同様である。なお、第二時間伸縮パラメータに応じて、信号は伸縮されない。

次に、復号装置２０が符号化音声信号を復号する処理について、説明する。

図１４は、本発明の実施の形態３に係る復号装置２０が符号化音声信号を復号する処理の一例を示すフローチャートである。

同図に示すように、まず、デマルチプレクサ２０５は、入力されるビットストリームから、符号化時間伸縮パラメータと符号化音声信号とを分離する（Ｓ２０２）。

そして、可逆デコーダ２０１及び動的時間伸縮再構成部２０２は、符号化時間伸縮パラメータを復号し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する（Ｓ２０４）。

また、変換デコーダ２０４は、符号化音声信号を復号し、ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する（Ｓ２０６）。

そして、時間伸縮部２０３は、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチノード数のピッチのうち少なくとも１つのピッチを変更することで、ピッチが補正された音声信号を補正前の音声信号に変換する（Ｓ２０８）。

以上により、復号装置２０が符号化音声信号を復号する処理は、終了する。

以上のように、本実施の形態３に係る復号装置２０によれば、ビットストリームから符号化音声信号と符号化時間伸縮パラメータとを分離し、符号化時間伸縮パラメータを復号して、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する。そして、復号装置２０は、符号化音声信号を復号してピッチが補正された音声信号を生成し、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチを変更することで、音声信号を補正前の音声信号に変換する。このように、復号装置２０は、符号化時間伸縮パラメータを復号して第二時間伸縮パラメータを生成し、ピッチノード数のピッチをピッチシフト前のピッチに戻すことで、音声信号をピッチシフト前の音声信号に戻す。このため、復号装置２０は、ピッチの変化が大きい音声信号を復号する場合であっても、ピッチ変化率が大きい場合に対応した拡張固定テーブルを用いつつ、拡張固定テーブルのインデックスをＨｕｆｆｍａｎ符号などの可逆可変長符号を用いることでインデックスを符号化する際のビット数を削減することで得られた符号化時間伸縮パラメータを復号するため、復号装置２０は、多くのビット数を使用することなく復号を行うことができる。これにより、復号装置２０は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

（実施の形態４）
本実施の形態４では、ピッチ変化率を符号化する可逆エンコーダおよび復号する可逆デコーダの詳細について説明する。

動的時間伸縮再構成部２０２が受信する復号時間伸縮パラメータは、フラグ、時間伸縮が適用されている位置情報、および、それに対応する時間伸縮値Δｐ_ｉから構成されている。

まず、動的時間伸縮再構成部２０２は、当該フラグを確認する。フラグが０であれば、対象フレームに時間伸縮が適用されていないことを意味する。この場合、再構成されたピッチパターンのベクトルを全て１に設定する。

フラグが１であれば、時間伸縮が適用されている位置を示すベクトルＣを符号化するためにＭビットを使用していることを意味する。１つのビットが１つの位置と一致する。ベクトルＣ内の１はピッチ変化がないことを表し、一方、ベクトルＣ内の０はピッチ変化があることを表す。

そして、動的時間伸縮再構成部２０２は、ベクトルＣ内に０がいくつあるかをカウントすることによって、ピッチ変化位置の総数Ｎを把握する。以下において、Ｎ個の時間伸縮値Δｐ_ｉはバッファから取得される。Δｐ_ｉは、ｃ（ｉ）＝０である時間伸縮値に対応する。時間伸縮値Δｐ_ｉは可逆デコーダによって復号される。この擬似コードは以下の通りである。
Ｆｏｒｉ＝０：Ｍ
Ｐｉｔｃｈ＿ｒａｔｉｏ［ｉ］＝１；
Ｉｆｆｌａｇ＝＝１
Ｆｏｒｉ＝１：Ｍ
｛
Ｒｅａｄ（ｖｅｃｔｏｒＣ（ｉ））
ＩｆｖｅｃｔｏｒＣ（ｉ）＝＝０
｛
Ｒｅａｄ（ｒａｔｉｏ）；
Ｐｉｔｃｈ＿ｒａｔｉｏ［ｉ］＝ｒａｔｉｏ；
｝
｝

正規化ピッチパターンは以下のように再構成される。

このピッチパターンは、後の時間伸縮で用いられる。

（実施の形態５）
本実施の形態５では、動的時間伸縮方式を備えた別の符号化装置を提案する。図１５は、本発明の実施の形態５に係る符号化装置１１の機能的な構成を示すブロック図である。

同図に示すように、符号化装置１１は、ピッチパターン検出部３０１、動的時間伸縮部３０２、可逆エンコーダ３０３、時間伸縮部３０４、変換エンコーダ３０５、可逆デコーダ３０６、動的時間伸縮再構成部３０７及びマルチプレクサ３０８を備えている。

ここで、図８に示した実施の形態１の符号化装置１０と本実施の形態５の符号化装置１１との違いは、符号化装置１１が可逆デコーダ３０６および動的時間伸縮再構成部３０７を有することである。つまり、実施の形態１では、時間伸縮部１０４の時間伸縮に対して符号化（量子化）前のピッチ情報を用いている。この符号化（量子化）前のピッチ情報は、復号装置２０の復号ピッチ情報とは異なる場合がある。

具体的には、動的時間伸縮部１０２が生成する第一時間伸縮パラメータと、第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータが復号装置２０で復号されて生成される第二時間伸縮パラメータとが異なる場合がある。特に、第一時間伸縮パラメータに含まれるピッチ変化率と第二時間伸縮パラメータに含まれるピッチ変化率とが異なる可能性が高い。

このため、符号化の精度を向上させるため、本実施の形態５では、まず第一時間伸縮パラメータを符号化してから可逆デコーダ３０６で復号し、動的時間伸縮再構成部３０７で第二時間伸縮パラメータを再構成する。

なお、可逆デコーダ３０６の機能は、図１３に示された可逆デコーダ２０１と同様である。また、動的時間伸縮再構成部３０７の機能は、図１３に示された動的時間伸縮再構成部２０２と同様である。

つまり、可逆デコーダ３０６及び動的時間伸縮再構成部３０７は、可逆エンコーダ３０３が生成した符号化時間伸縮パラメータを復号し、所定期間のピッチパターンにおけるピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する復号部である。

そして、時間伸縮部３０４は、可逆デコーダ３０６及び動的時間伸縮再構成部３０７が生成した第二時間伸縮パラメータを用いて、ピッチを補正する。

このように、符号化装置１１は、復号装置２０と全く同じ時間伸縮パラメータを使用することができる。

なお、本実施の形態５の符号化装置１１が備えるピッチパターン検出部３０１、動的時間伸縮部３０２、可逆エンコーダ３０３、時間伸縮部３０４、変換エンコーダ３０５及びマルチプレクサ３０８のそれぞれは、実施の形態１の符号化装置１０が備えるピッチパターン検出部１０１、動的時間伸縮部１０２、可逆エンコーダ１０３、時間伸縮部１０４、変換エンコーダ１０５及びマルチプレクサ１０６と同様の機能を有するため、詳細な説明は省略する。

以上のように、本実施の形態５に係る符号化装置１１によれば、生成した符号化時間伸縮パラメータを復号し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成し、生成した第二時間伸縮パラメータを用いて、ピッチを補正する。つまり、符号化装置１１は、ピッチシフトに第一時間伸縮パラメータを用いるのではなく、第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータを復号して生成した第二時間伸縮パラメータを用いて、ピッチシフトを行う。ここで、当該第二時間伸縮パラメータは、復号装置２０で音声信号が復号される際に使用されるパラメータである。このため、符号化装置１１は、復号装置で使用されるパラメータと同じパラメータを使用してピッチシフトを行うことで、復号時の時間伸張処理の計算精度を向上させることができる。これにより、符号化装置１１は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。

（実施の形態６）
本実施の形態６では、メインおよびサイド（Ｍ／Ｓ）モードとを組み入れた符号化装置を導入している。図１６は、本発明の実施の形態６に係る符号化装置１２の機能的な構成を示すブロック図である。

多くのコーデックのうち、Ｍ／Ｓモードはステレオ信号、例えばＡＡＣコーデックに対してよく用いられる。このＭ／Ｓモードを用いて、周波数領域のサブバンドにより、左右のチャンネルサブバンドの類似性を検出する。左右のチャンネルのサブバンドが似ていれば、Ｍ／Ｓモードが作動し、似ていなければ、Ｍ／Ｓモードは作動しない。

Ｍ／Ｓモードの情報は多くの変換符号化に利用可能であるため、動的時間伸縮方式ではＭ／Ｓモードの情報を用いて、ハーモニック時間伸縮の性能を改善することができる。

具体的には、同図に示すように、符号化装置１２は、Ｍ／Ｓ計算部４０１、ダウンミックス部４０２、ピッチパターン検出部４０３、動的時間伸縮部４０４、可逆エンコーダ４０５、時間伸縮部４０６、変換エンコーダ４０７及びマルチプレクサ４０８を備えている。

ここで、ピッチパターン検出部４０３、動的時間伸縮部４０４、可逆エンコーダ４０５、時間伸縮部４０６、変換エンコーダ４０７及びマルチプレクサ４０８のそれぞれは、実施の形態１の符号化装置１０が備えるピッチパターン検出部１０１、動的時間伸縮部１０２、可逆エンコーダ１０３、時間伸縮部１０４、変換エンコーダ１０５及びマルチプレクサ１０６と同様の機能を有するため、詳細な説明は省略する。

Ｍ／Ｓ計算部４０１は、入力音声信号が有する２つのチャンネルの信号におけるピッチパターンの類似度を算出し、算出した類似度が所定の値よりも大きいか否かを示すフラグを生成する。

具体的には、左右のチャンネル信号がＭ／Ｓ計算部４０１に送信される。そして、Ｍ／Ｓ計算部４０１は、周波数領域において左右の信号の類似性を算出する。これは、変換符号化におけるＭ／Ｓモードでの検出と同じである。そして、Ｍ／Ｓ計算部４０１は、１つのフラグを生成する。つまり、Ｍ／Ｓ計算部４０１は、ステレオ信号のサブバンド全てに対してＭ／Ｓモードが作動すれば、このフラグを１に設定し、そうでなければフラグを０に設定する。

また、ダウンミックス部４０２は、Ｍ／Ｓ計算部４０１が生成したフラグが、当該類似度が当該所定の値よりも大きいことを示す場合には、当該２つのチャンネルの信号をダウンミックスして得られる１つの信号を出力し、当該類似度が当該所定の値以下であることを示す場合には、当該２つのチャンネルの信号を出力する。

具体的には、フラグ＝１であれば、ダウンミックス部４０２において、左右の信号をメイン信号およびサイド信号にダウンミックスする。メイン信号は、ピッチパターン検出部４０３に送信される。また、フラグ＝１でなければ、ダウンミックス部４０２は、元のステレオ信号をピッチパターン検出部４０３に送信する。

そして、ピッチパターン検出部４０３は、ダウンミックス部４０２が出力した信号のそれぞれについて、ピッチパターンを検出する。

具体的には、ピッチパターン検出部４０３は、元のステレオ信号か、ステレオ信号のダウンミックス信号かのどちらかを受信する。ピッチパターン検出部４０３は、ダウンミックス信号を受信した場合、１セットのピッチパターンを検出する。ピッチパターン検出部４０３は、ダウンミックス信号を受信しなかった場合には、左右の音声信号のピッチパターンをそれぞれ検出する。

このように、本実施の形態６では、動的時間伸縮方式を、ステレオ信号の符号化により適するよう改善することができる。ステレオ信号を符号化する場合、左右のチャンネルで特性が異なることもある。この場合、異なるチャンネルに対して別の第一時間伸縮パラメータを算出する。また、左右のチャンネルの特性が類似していることもある。この場合、両チャンネルに同じ第一時間伸縮パラメータを用いるのが合理的である。つまり、左右のチャンネルの特性が類似している場合は、同じ第一時間伸縮パラメータを用いるのがより効率的である。

以上のように、本実施の形態６に係る符号化装置１２によれば、入力音声信号である２つのチャンネルの信号におけるピッチパターンの類似度を算出し、当該類似度が所定の値よりも大きい場合には、２つのチャンネルの信号をダウンミックスして得られる１つの信号を出力し、当該類似度が所定の値以下の場合には、２つのチャンネルの信号を出力する。つまり、符号化装置１２は、２つのチャンネルの信号のピッチパターンの類似度が高い場合には、１つの信号のピッチパターンに基づいて、２つのチャンネルの信号に共通する１つの第一時間伸縮パラメータを生成する。このように、符号化装置１２は、２つのチャンネルの信号を符号化するのに、１つの第一時間伸縮パラメータを符号化すればよく、使用するビット数を低減することができる。このため、符号化装置１２は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

（実施の形態７）
本実施の形態７は、Ｍ／Ｓモードに対応した復号装置を導入する。図１７は、本発明の実施の形態７に係る復号装置２１の機能的な構成を示すブロック図である。

同図に示すように、復号装置２１は、可逆デコーダ５０１、動的時間伸縮再構成部５０２、時間伸縮部５０３、Ｍ／Ｓモード検出部５０４、変換デコーダ５０５及びデマルチプレクサ５０６を備えている。

ここで、復号装置２１が備える可逆デコーダ５０１、動的時間伸縮再構成部５０２、時間伸縮部５０３、変換デコーダ５０５及びデマルチプレクサ５０６は、実施の形態３における復号装置２０が備える可逆デコーダ２０１、動的時間伸縮再構成部２０２、時間伸縮部２０３、変換デコーダ２０４及びデマルチプレクサ２０５と同様の機能を有するため、詳細な説明は省略する。

まず、入力ビットストリームがデマルチプレクサ５０６に送信される。そして、デマルチプレクサ５０６は、符号化時間伸縮パラメータと変換エンコーダ情報と符号化音声信号とを出力する。

そして、変換デコーダ５０５は、符号化音声信号を変換エンコーダ情報に従って時間伸縮された信号に復号し、Ｍ／Ｓモード情報を抽出する。そして、変換デコーダ５０５は、抽出したＭ／Ｓモード情報を、Ｍ／Ｓモード検出部５０４に送信する。

Ｍ／Ｓモード検出部５０４は、音声信号が有する２つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きいか否かを示すフラグを生成する。

具体的には、フレームのサブバンド全てに対してＭ／Ｓモードが作動すれば、このＭ／Ｓモードが時間伸縮に対しても作動するように、Ｍ／Ｓモード検出部５０４は、フラグを１に設定する。そうでなければ、Ｍ／Ｓモードはハーモニック時間伸縮再構成では用いられないため、Ｍ／Ｓモード検出部５０４は、フラグを０に設定する。そして、Ｍ／Ｓモード検出部５０４は、Ｍ／Ｓモードのフラグを動的時間伸縮再構成部５０２に送信する。

動的時間伸縮再構成部５０２は、Ｍ／Ｓモード検出部５０４が生成したフラグが、当該類似度が当該所定の値よりも大きいことを示す場合には、２つのチャンネルの信号に共通する第二時間伸縮パラメータを生成し、当該類似度が当該所定の値以下であることを示す場合には、２つのチャンネルの信号それぞれについて第二時間伸縮パラメータを生成する。

具体的には、動的時間伸縮再構成部５０２は、当該フラグに従って、可逆デコーダ５０１によって逆量子化された復号時間伸縮パラメータを第二時間伸縮パラメータに再構成する。

つまり、動的時間伸縮再構成部５０２は、フラグ＝１であれば、１セットの第二時間伸縮パラメータを生成し、フラグが１でなければ、２セットの第二時間伸縮パラメータを生成する。第二時間伸縮パラメータの生成プロセスは、実施の形態２において動的時間伸縮部１０２が第一時間伸縮パラメータを生成プロセスと同様である。

時間伸縮部５０３は、フラグ＝１であれば、時間伸縮されたステレオ信号に同じ第二時間伸縮パラメータを適用する。また、時間伸縮部５０３は、フラグが１でなければ、左の時間伸縮信号と右の時間伸縮信号とに異なる第二時間伸縮パラメータを適用する。

以上のように、本実施の形態７に係る復号装置２１によれば、音声信号である２つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きい場合には、２つのチャンネルの信号に共通する第二時間伸縮パラメータを生成し、当該類似度が所定の値以下である場合には、２つのチャンネルの信号それぞれについて第二時間伸縮パラメータを生成する。つまり、復号装置２１は、２つのチャンネルの信号のピッチパターンの類似度が高い場合には、１つの第二時間伸縮パラメータを生成する。このように、復号装置２１は、２つのチャンネルの信号を復号するのに、１つの第二時間伸縮パラメータを用いるだけでよいので、使用するビット数を低減することができる。このため、復号装置２１は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。

（実施の形態８）
本実施の形態８は、実施の形態６を改善して、復号装置における時間伸縮の精度を上げる。改善点は、実施の形態５の改善点と同じである。図１８は、本発明の実施の形態８に係る符号化装置１３の機能的な構成を示すブロック図である。

同図に示すように、符号化装置１３は、Ｍ／Ｓ計算部６０１、ダウンミックス部６０２、ピッチパターン検出部６０３、動的時間伸縮部６０４、可逆エンコーダ６０５、時間伸縮部６０６、変換エンコーダ６０７、可逆デコーダ６０８、動的時間伸縮再構成部６０９及びマルチプレクサ６１０を備えている。

ここで、Ｍ／Ｓ計算部６０１、ダウンミックス部６０２、ピッチパターン検出部６０３、動的時間伸縮部６０４、可逆エンコーダ６０５、時間伸縮部６０６、変換エンコーダ６０７及びマルチプレクサ６１０のそれぞれは、実施の形態６の符号化装置１２が備えるＭ／Ｓ計算部４０１、ダウンミックス部４０２、ピッチパターン検出部４０３、動的時間伸縮部４０４、可逆エンコーダ４０５、時間伸縮部４０６、変換エンコーダ４０７及びマルチプレクサ４０８と同様の機能を有するため、詳細な説明は省略する。

つまり、本実施の形態８では、実施の形態６の構成に、可逆デコーダ６０８と動的時間伸縮再構成部６０９とが加えられている。この目的は、実施の形態５と同様に、符号化装置が復号装置と同じ第二時間伸縮パラメータを利用できるようにすることである。

なお、可逆デコーダ６０８および動的時間伸縮再構成部６０９は、実施の形態７の復号装置２１における可逆デコーダ５０１および動的時間伸縮再構成部５０２と同様の機能を有するため、詳細な説明は省略する。

（実施の形態９）
本実施の形態９では、閉ループの動的時間伸縮方式を備えた符号化装置を導入する。図１９は、本発明の実施の形態９に係る符号化装置１４の機能的な構成を示すブロック図である。

同図に示すように、符号化装置１４は、Ｍ／Ｓ計算部７０１、ダウンミックス部７０２、ピッチパターン検出部７０３、動的時間伸縮部７０４、可逆エンコーダ７０５、可逆デコーダ７０６、動的時間伸縮再構成部７０７、時間伸縮部７０８、変換エンコーダ７０９、比較部７１０及びマルチプレクサ７１１を備えている。

なお、実施の形態９の構造は実施の形態８の構造に基づいているが、比較方式が加えられている。つまり、符号化装置１４は、実施の形態８の符号化装置１３の構成に比較部７１０を追加した構成となっている。このため、符号化装置１４が備える比較部７１０以外の構成についての詳細な説明は、省略する。

比較部７１０は、変換エンコーダ７０９が生成した符号化音声信号である第一符号化信号と、他の符号化方式によって入力音声信号が符号化された第二符号化信号とを比較する。

つまり、比較部７１０は、符号化音声信号と符号化時間伸縮パラメータとをマルチプレクサ７１１に送信する前に、符号化音声信号を確認する。具体的には、比較部７１０は、時間伸縮を復号した後で音質が全体的に改善されているか否かの判断を行う。

具体的には、比較部７１０は、第一符号化信号を、可逆エンコーダ７０５が生成した符号化時間伸縮パラメータを用いて復号し、入力音声信号との差分である第一差分を算出する。また、比較部７１０は、第二符号化信号を復号し、入力音声信号との差分である第二差分を算出する。そして、比較部７１０は、第一差分が第二差分よりも小さい場合に、第一符号化信号を出力する。

ここで、比較部７１０は、様々な種類の比較方式によって比較を行うことができる。このうちの１つの例として、復号信号のＳＮＲ（Ｓｉｇｎａｌ−ＮｏｉｓｅＲａｔｉｏ、ＳＮ比）を元の信号と比較するものがある。

まず、比較部７１０は、時間伸縮された符号化音声信号を変換デコーダによって復号する。例えば、比較部７１０は、時間伸縮部７０８のように、復号された音声信号に第二時間伸縮パラメータを用いて時間伸縮を適用する。そして、比較部７１０は、伸縮されていない音声信号と元の音声信号とを比較することによって、ＳＮＲ_１を算出する。

次に、比較部７１０は、時間伸縮を適用することなく他の符号化音声信号を生成する。そして、比較部７１０は、この符号化音声信号を同じ変換デコーダにより復号し、この復号された音声信号を元の音声信号と比較することによって、ＳＮＲ_２を算出する。

次に、比較部７１０は、ＳＮＲ_１とＳＮＲ_２とを比較して、判断を行う。もしＳＮＲ_１＞ＳＮＲ_２であれば、比較部７１０は、時間伸縮を選択し、第一符号化信号と変換エンコーダ情報と符号化時間伸縮パラメータとをマルチプレクサ７１１に送信する。

そして、マルチプレクサ７１１は、比較部７１０が出力した第一符号化信号と変換エンコーダ情報と符号化時間伸縮パラメータとを多重化して、ビットストリームを生成する。

また、ＳＮＲ_１≦ＳＮＲ_２であれば、時間伸縮は選択されず、比較部７１０は、第二符号化信号と変換エンコーダ情報とをマルチプレクサ７１１に送信する。

なお、比較部７１０は、比較方式の別の方法として、ＳＮＲの代わりに、使用するビット数を比較することにしてもよい。

このように、本動的時間伸縮方式では、時間伸縮前後のハーモニック構造を比較することによって、時間伸縮の効果の評価も行い、時間伸縮が対象フレームに適応するかどうかを判断する。これにより、不正確なピッチパターンによってもたらされる誤りを排除することができる。

以上のように、本実施の形態９に係る符号化装置１４によれば、生成した符号化音声信号である第一符号化信号と、他の符号化方式によって入力音声信号が符号化された第二符号化信号とを比較し、第一符号化信号を復号した信号と入力音声信号との差分が、第二符号化信号を復号した信号と入力音声信号との差分よりも小さい場合に、第一符号化信号を出力する。つまり、符号化装置１４は、符号化の精度が良かった場合にのみ、生成した符号化音声信号を出力する。これにより、符号化装置１４は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。

（実施の形態１０）
本実施の形態１０では、動的時間伸縮方式において、ピッチ情報の長さを可変にする詳細な手法を提案する。

本実施の形態１０の符号化装置の構造は、例えば実施の形態５における符号化装置１１と同じであることとする。なお、本実施の形態１０の符号化装置の構造は、上記の他の実施の形態と同じであることにしてもよい。

本実施の形態１０における符号化装置１１の動的時間伸縮部３０２は、検出されたピッチパターンを解析して、ピッチノードの最適数を決定する。ゆえに、ピッチノード数は可変である。ピッチノード数を示すために長さ指示子を用いる。以下の表は、ピッチノード数の長さ指示子を示したものである。

そして、ｌｏｇ_２Ｎビットを用いて、ピッチノード数の長さ指示子を符号化する。ピッチノード数Ｍは、コーデックのビットレートに応じて、例えば、６４ｋｂｐｓの場合はＭ＝１６、２４ｋｂｐｓの場合はＭ＝８または２のように柔軟に対応することができる。また、ピッチノード数Ｍは、ウィンドウサイズなど、コーデックで生成された他のパラメータによっても、例えば、長ウィンドウフレームの場合はＭ＝８、短ウィンドウフレームの場合はＭ＝４のように変えることができる。

また、ピッチノード数の長さ指示子の一例を、以下の表に示す。

この場合は、２ビットを用いて長さ指示子を符号化する。ピッチ変化位置であるノードが０であれば、時間伸縮は行われず、時間伸縮パラメータはこれ以上符号化されない。また、ピッチ変化位置であるノードがＭ個あれば、Ｍビットを用いて、ベクトルＣと定義された、各位置に対するピッチ変化ステータスを符号化する。ここで、Ｍは、１６、８および２をとり得る。図１２に示したように、１つのビットが１つの位置と一致する。位置ｉでピッチ変化がなければ、Ｃ［ｉ］を１に設定し、ピッチ変化があれば、位置ｉでピッチ変化が生じたことを示すためにＣ［ｉ］を０に設定する。

Ｃ［ｉ］が０である各ノードでのピッチ変化値Δｐ_ｉを可逆エンコーダ３０３で符号化する。

そして、可逆エンコーダ３０３は、ピッチノード数を示す符号化された長さ指示子と、ピッチ変化位置を示すベクトルＣと、ピッチ変化率とをマルチプレクサ３０８に送信する。

このように、本実施の形態１０において提案された方式は、ピッチノードの可変長を示す長さ指示子を用いることによって、動的時間伸縮による符号化をさらに最適化する。

つまり、先行技術では、一定数のピッチ値を１フレームから算出する。ここで、本願発明者らの鋭意研究の結果、ピッチ変化は短時間ではあまり起こらないことを見出した。このため、信号特性に応じた適応数のピッチを有するほうがより効率的である。これにより、ビット数をさらに残して音質を改善することができる。

（実施の形態１１）
本実施の形態１１では、時間伸縮パラメータの可変長を復号する方式を備えた復号装置を提案する。例えば、本実施の形態１１の復号装置の例として、図１３に示した復号装置２０を用いることができる。

本実施の形態１１において、時間伸縮ノードの復号長さは可変である。これは、実施の形態１０で説明した符号化装置に対応しており、以下に、実施の形態１１の復号装置の一例を説明する。

実施の形態１１の復号装置２０においては、ビットストリームを分離した後、符号化時間伸縮パラメータを可逆デコーダ２０１に送信する。実施の形態１０によると、長さ指示子はｌｏｇ_２Ｎビットで符号化される。可逆デコーダ２０１は、実施の形態１０におけるピッチノード数の長さ指示子の表を用いて、ピッチノード数Ｍを復号する。

ここで、ピッチノード数Ｍは、コーデックのビットレートに応じて、例えば、６４ｋｂｐｓの場合はＭ＝１６、２４ｋｂｐｓの場合はＭ＝８または２のように違っていてもかまわない。また、ピッチノード数Ｍは、ウィンドウサイズなど、コーデックで生成された他のパラメータによっても、例えば、長ウィンドウフレームの場合はＭ＝８、短ウィンドウフレームの場合はＭ＝４のように変えることができる。

長さ指示子の復号方式の一例を、以下の表に示す。

ピッチ変化位置であるノードが０であれば、時間伸縮は行われず、時間伸縮パラメータはこれ以上復号されない。

ピッチ変化位置であるノードがＭ個あれば、Ｍビットのピッチ変化位置ベクトルＣを復号する。ここで、Ｍは、１６、８および２をとり得る。１つのビットが１つの位置と一致する。Ｃ［ｉ］が１に等しい場合は、位置ｉでピッチ変化がないことを意味する。Ｃ［ｉ］が０に等しい場合は、図１２に示しているように、位置ｉでピッチ変化があることを意味する。

可逆デコーダ２０１は、ベクトルＣ［ｉ］が０である位置において、ピッチ変化値Δｐ_ｉを復号する。

この擬似コードは以下のように記述される。
Ｍ＝Ｔａｂｌｅ＿Ｉｎｄｉｃａｔｏｒ［Ｒｅａｄｓ（ｉｎｄｉｃａｔｏｒ）］；
Ｆｏｒｉ＝０：Ｍ
Ｐｉｔｃｈ＿ｒａｔｉｏ［ｉ］＝１；
Ｉｆ（Ｍ＞０）
Ｆｏｒｉ＝０：Ｍ
｛
Ｒｅａｄ（ｖｅｃｔｏｒＣ（ｉ））
Ｉｆ（ｖｅｃｔｏｒＣ（ｉ）＝＝０）
｛
Ｐｉｔｃｈ＿ｒａｔｉｏ［ｉ］＝Ｌｏｓｓｌｅｓｓ＿ｄｅｃ（Ｒｅａｄ（ｒａｔｉｏｉｎｄｅｘ））；
｝
｝

そして、正規化ピッチパターンは以下のように再構成される。

このピッチパターンは、時間伸縮された音声信号のピッチをシフトする時間伸縮部２０３内で利用される。

以上、本発明の実施の形態に係る符号化装置及び復号装置について説明したが、本発明は、この実施の形態に限定されるものではない。つまり、今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。

また、本発明は、このような符号化装置または復号装置として実現することができるだけでなく、当該符号化装置または復号装置に含まれる処理部が行う特徴的な処理をステップとする符号化方法または復号方法としても実現することができる。また、符号化方法または復号方法に含まれる特徴的な処理をコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

また、図８、１５、１６、１８もしくは１９のブロック図に示された符号化装置、または、図１３もしくは１７のブロック図に示された復号装置の各機能ブロックは、集積回路であるＬＳＩとして実現されてもよい。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

本発明は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる符号化装置等に適用可能である。

１０、１１、１２、１３、１４符号化装置
２０、２１復号装置
１０１、３０１、４０３、６０３、７０３ピッチパターン検出部
１０２、３０２、４０４、６０４、７０４動的時間伸縮部
１０３、３０３、４０５、６０５、７０５可逆エンコーダ
１０４、３０４、４０６、６０６、７０８時間伸縮部
１０５、３０５、４０７、６０７、７０９変換エンコーダ
１０６、３０８、４０８、６１０、７１１マルチプレクサ
２０１、５０１可逆デコーダ
２０２、５０２動的時間伸縮再構成部
２０３、５０３時間伸縮部
２０４、５０５変換デコーダ
２０５、５０６デマルチプレクサ
３０６、６０８、７０６可逆デコーダ
３０７、６０９、７０７動的時間伸縮再構成部
４０１、６０１、７０１Ｍ／Ｓ計算部
４０２、６０２、７０２ダウンミックス部
５０４Ｍ／Ｓモード検出部
７１０比較部

Claims

入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出部と、
検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部と、
生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第１エンコーダと、
生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも１つのピッチを補正する時間伸縮部と、
前記時間伸縮部が補正したピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第２エンコーダと、
前記第１エンコーダが生成した前記符号化時間伸縮パラメータと前記第２エンコーダが生成した前記符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサと
を備える符号化装置。
さらに、
前記第１エンコーダが生成した前記符号化時間伸縮パラメータを復号し、前記所定期間のピッチパターンにおけるピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する復号部を備え、
前記時間伸縮部は、前記復号部が生成した前記第二時間伸縮パラメータを用いて、前記ピッチを補正する
請求項１に記載の符号化装置。
前記入力音声信号は、２つのチャンネルの信号を有し、
前記符号化装置は、さらに、
前記２つのチャンネルの信号におけるピッチパターンの類似度を算出し、算出した前記類似度が所定の値よりも大きいか否かを示すフラグを生成するＭ／Ｓ計算部と、
生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記２つのチャンネルの信号をダウンミックスして得られる１つの信号を出力し、前記類似度が前記所定の値以下であることを示す場合には、前記２つのチャンネルの信号を出力するダウンミックス部とを備え、
前記ピッチパターン検出部は、前記ダウンミックス部が出力した信号のそれぞれについて、ピッチパターンを検出する
請求項１または２に記載の符号化装置。
さらに、
前記第２エンコーダが生成した前記符号化音声信号である第一符号化信号と、他の符号化方式によって前記入力音声信号が符号化された第二符号化信号とを比較する比較部を備え、
前記比較部は、
前記第一符号化信号を、前記第１エンコーダが生成した前記符号化時間伸縮パラメータを用いて復号し、前記入力音声信号との差分である第一差分を算出し、
前記第二符号化信号を復号し、前記入力音声信号との差分である第二差分を算出し、
前記第一差分が前記第二差分よりも小さい場合に、前記第一符号化信号を出力し、
前記マルチプレクサは、前記比較部が出力した前記第一符号化信号と前記符号化時間伸縮パラメータとを多重化して、前記ビットストリームを生成する
請求項１〜３のいずれか１項に記載の符号化装置。
ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離するデマルチプレクサと、
前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第１復号部と、
前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第２復号部と、
前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも１つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮部と
を備える復号装置。
前記音声信号は、２つのチャンネルの信号を有し、
前記復号装置は、さらに、
前記２つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きいか否かを示すフラグを生成するＭ／Ｓモード検出部を備え、
前記第１復号部は、生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記２つのチャンネルの信号に共通する前記第二時間伸縮パラメータを生成し、前記類似度が前記所定の値以下であることを示す場合には、前記２つのチャンネルの信号それぞれについて前記第二時間伸縮パラメータを生成する
請求項５に記載の復号装置。
入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出ステップと、
検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮ステップと、
生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第１符号化ステップと、
生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも１つのピッチを補正する時間伸縮ステップと、
前記時間伸縮ステップで補正されたピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第２符号化ステップと、
前記第１符号化ステップで生成された前記符号化時間伸縮パラメータと前記第２符号化ステップで生成された前記符号化音声信号とを多重化して、ビットストリームを生成する多重化ステップと
を含む符号化方法。
ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離する分離ステップと、
前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第１復号ステップと、
前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第２復号ステップと、
前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも１つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮ステップと
を含む復号方法。
請求項７に記載の符号化方法に含まれるステップをコンピュータに実行させるためのプログラム。
請求項８に記載の復号方法に含まれるステップをコンピュータに実行させるためのプログラム。
入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出部と、
検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部と、
生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第１エンコーダと、
生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも１つのピッチを補正する時間伸縮部と、
前記時間伸縮部が補正したピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第２エンコーダと、
前記第１エンコーダが生成した前記符号化時間伸縮パラメータと前記第２エンコーダが生成した前記符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサと
を備える集積回路。
ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離するデマルチプレクサと、
前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第１復号部と、
前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第２復号部と、
前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも１つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮部と
を備える集積回路。