JPWO2003019530A1

JPWO2003019530A1 - ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム

Info

Publication number: JPWO2003019530A1
Application number: JP2003522907A
Authority: JP
Inventors: 佐藤　寧; 寧佐藤
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2001-08-31
Filing date: 2002-08-30
Publication date: 2004-12-16
Anticipated expiration: 2022-08-30
Also published as: CN1473325A; CN1702736A; DE60229757D1; CN1224956C; CN100568343C; US20040220801A1; WO2003019530A1; JP4170217B2; EP1422693A4; EP1422693A1; EP1422693B1

Abstract

コンピュータは音声データをフィルタリングし、フィルタリング結果がゼロクロスするタイミングに基づいてピッチ長を特定する。なお、フィルタリングにおける通過帯域の中心周波数は、音声データのケプストラムやピリオドグラムより抽出したピッチ長からのずれが所定量を超えない限り、ゼロクロスのタイミングに基づいて特定したピッチ長の逆数に当たる値に制御される。次にコンピュータは、フィルタリング結果に基づいて音声データを単位ピッチ分の区間へと区切り、各区間の位相やサンプル数を一定に揃えて、ピッチのゆらぎの影響を除去する。そして、得られたピッチ波形データは複数の手法で補間され、高調波成分が少ないものを、各区間の元のサンプル数や振幅を示すデータと共に出力する。

Description

技術分野
この発明は、ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラムに関する。
背景技術
声の信号をパラメータ化して扱う場合には、声の信号を、波形情報よりも周波数情報として扱う場合が多くある。例えば音声合成では、一般に、声のピッチやフォルマントを利用した手法が多く採用されている。
ピッチやフォルマントを、人間の声の発生過程に即して説明すると、人間の声の発生過程はまず、声帯部を振動させて、パルスの列からなるような音を発生させることから始まる。このパルスは、言葉の音素毎に特有なある一定の周期で発生し、この周期が「ピッチ」と呼ばれている。このパルスのスペクトルは、ピッチの整数倍の間隔で並ぶ比較的強いスペクトル成分を含みつつ、幅広い周波数帯に分布する。
次に、このパルスが声道を通過すると、このパルスは、声道や舌の形状によって作られる空間でフィルタリングされる。このフィルタリングの結果、このパルスのうちある周波数成分のみが強調されるような音ができる。（すなわち、フォルマントが生成される。）以上が、声の発生過程である。
声道や舌を動かすと、声帯が発生したパルスのうち強調される周波数成分は変化する。このため、この変化と言葉とを対応付ければ、音声による会話が成立する。従って、音声合成をしたい場合、声道のフィルタ特性をシミュレートすれば、原理的には、肉声感のある声質をもつ合成音声を得ることができることになる。
しかし、実際には、人間の声道の変化は非常に複雑なため、通常利用できる計算機の能力では、人間の声道のシミュレーションは非常に困難である。従って、声道のシミュレーションは、声道をある程度単純化したモデルを想定して行わざるを得ない。また、ピッチも人間の感情や意識に影響されやすく、ある程度は一定とみなせる周期であるものの、現実には微妙にゆらぎを生じる。ピッチのこのような変化を計算機でシミュレートすることはほぼ不可能である。
従って、声のピッチやフォルマントを利用する従来の手法では、肉声感のあるリアルな音質での音声合成が非常に困難である。
一方、コーパス方式と呼ばれる音声合成の手法がある。これは、現実の人間の声の波形を音素、ピッチ毎に分類してデータベース化し、これらの波形を、テキスト等に合致するようつなぎ合わせることで音声合成を行う手法である。この手法では、人間の現実の声の波形が使用されるので、シミュレーションでは得られない肉声感のあるリアルな声質が得られる。
しかし、人間の発生する声には非常に多様なパターンがあり、感情表現まで含めて考えると、ほぼ無限である。従って、上述のデータベースに格納すべき波形の数は、膨大なものとなってしまう。そこで、データベースのデータ容量を圧縮する手法が望まれている。
データベースのデータ容量を圧縮する手法としては、テキスト等から特定される本来の音素を表す波形がない場合にはこの音素に最もよく近似できる音素を選択するようにする手法が提案されている。
しかし、この手法を行ってもデータベースのデータ容量はなお相当大容量となる上、本来用いられるべきでない音素を不自然につなぎ合わせて音声を合成することになるので、合成音声が、つながりの悪い不自然なものになってしまう、という問題がある。
そこで、データベースのデータ容量を圧縮する手法として、データベースに格納される個々の波形を圧縮する手法が用いられる。波形を圧縮する手法としては、波形をスペクトルに変換してから、マスキング効果のため人間に聴き取られにくくなる成分を削除する、という手法が考えられる。このような手法は、ＭＰ３（ＭＰＥＧ１ａｕｄｉｏｌａｙｅｒ３）や、ＡＴＲＡＣ（ＡｄａｐｔｉｖｅＴＲａｎｓｆｏｒｍＡｃｏｕｓｔｉｃＣｏｄｉｎｇ）、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）などの圧縮技術において用いられている。
しかし、ここで問題になるのが、上述したピッチのゆらぎである。
人間が発声する音声のスペクトルは一般に、ピッチの逆数にあたる間隔で並ぶ、比較的強いスペクトルをもつ。従って、ピッチにゆらぎがない音声であれば、マスキング効果を利用した上述の圧縮が効率的に行える。しかし、ピッチは、話者の感情や意識（情緒）によりゆらぐので、同一話者が同じ言葉（音素）を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。このため、人間が現に発声した音声を複数ピッチ分に渡ってサンプリングし、スペクトルを解析すると、解析結果には、上述の比較的強いスペクトルが現れず、このようなスペクトルに基づいてマスキング効果を利用した圧縮を行っても、効率的に圧縮できない。
発明の開示
この発明は、上記実状に鑑みてなされたものであり、ピッチが揺らぎを含む音声のスペクトルを正確に特定できるようにするためのピッチ波形信号生成装置及びピッチ波形信号生成方法を提供することを目的とする。
上記目的を達成すべく、この発明の第１の観点にかかるピッチ波形信号生成装置は、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、を備える、
ことを特徴とする。
ピッチ波形信号生成装置は、前記音声信号の基本周波数と前記ピッチ信号とに基づいて前記フィルタのフィルタ係数を決定するフィルタ係数決定手段（１０２，５）を更に備えていてもよく、この場合、前記フィルタは、前記フィルタ係数決定手段による決定に従って自己のフィルタ係数を変更するものであってもよい。
前記位相調整手段は、前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて求めた位相へと移相するものであってもよい。
前記位相調整手段は、
前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて、移相後の位相を特定する位相特定手段（１０２，８）と、
各前記区間を、前記位相特定手段が特定した位相に移相し、各該区間の振幅に定数を乗じて該振幅を変更する手段（１０２，９）と、を備えるものであってもよい。
前記定数は、例えば、各前記区間の振幅の実効値が互いに共通した一定値となるような値である。
前記ピッチ波形信号生成手段は、各前記区間について、前記定数と、前記サンプリング信号のサンプル数とに更に基づいて、前記ピッチ波形信号を生成するものであってもよい。
前記位相調整手段は、前記フィルタにより抽出されたピッチ信号が実質的に０となるタイミングが来る時点が前記区間の始点となるように、前記音声信号を前記区間に区切るものであってもよい。
また、この発明の第２の観点にかかるピッチ波形信号生成装置は、信号生成装置において、音声のピッチを特定し（１０２，７）、特定したピッチの値に基づき、単位ピッチ分の音声信号からなる区間へと前記音声信号を区切り（１０２，８）、各区間内の音声信号の位相を調整することにより当該音声信号をピッチ波形信号へと加工する（１０２，９）、ことを特徴とする。
また、この発明の第３の観点にかかるピッチ波形信号生成方法は、
入力された音声信号をフィルタリングしてピッチ信号を抽出し（１０２，６）、
抽出された前記ピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し（１０２，７，８，９）、
位相を調整された各前記区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し（１０２，１１）、
前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成する（１０２，１５）、
ことを特徴とする。
また、この発明の第４の観点にかかるコンピュータ読み取り可能な記録媒体は、
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、
して機能させるためのプログラムを記録したことを特徴とする。
また、この発明の第５の観点にかかる、搬送波に埋め込まれたコンピュータデータ信号は、
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、
して機能させるためのプログラムを表すことを特徴とする。
また、この発明の第６の観点にかかるプログラムは、
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、
して機能させるためのものであることを特徴とする。
発明を実施するための最良の形態
以下に、図面を参照して、この発明の実施の形態を説明する。
（第１の実施の形態）
図１は、この発明の第１の実施の形態に係るピッチ波形抽出システムの構成を示す図である。図示するように、このピッチ波形抽出システムは、記録媒体（例えば、フレキシブルディスクやＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌｄｉｓｋ）など）に記録されたデータを読み取る記録媒体ドライバ（フレキシブルディスクドライブや、ＭＯドライブなど）１０１と、記録媒体ドライバ１０１に接続されたコンピュータ１０２とより構成されている。
コンピュータ１０２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等からなるプロセッサや、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる揮発性メモリや、ハードディスク装置等からなる不揮発性メモリや、キーボード等からなる入力部や、ＣＲＴ（陰極線管）等からなる出力部などからなっている。コンピュータ１０２はピッチ波形抽出プログラムを予め記憶しており、このピッチ波形抽出プログラムを実行することにより後述する処理を行う。
（第１の実施の形態：動作）
次に、このピッチ波形抽出システムの動作を、図２を参照して説明する。図２は、図１のピッチ波形抽出システムの動作の流れを示す図である。
ユーザが、音声の波形を表す音声データを記録した記録媒体を記録媒体ドライバ１０１にセットして、コンピュータ１０２に、ピッチ波形抽出プログラムの起動を指示すると、コンピュータ１０２は、ピッチ波形抽出プログラムの処理を開始する。
すると、まず、コンピュータ１０２は、記録媒体ドライバ１０１を介し、記録媒体より音声データを読み出す（図２、ステップＳ１）。なお、音声データは、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
次に、コンピュータ１０２は、記録媒体より読み出された音声データをフィルタリングすることにより、フィルタリングされた音声データ（ピッチ信号）を生成する（ステップＳ２）。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、コンピュータ１０２は、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）とに基づくフィードバック処理を行うことにより決定する。
すなわち、コンピュータ１０２は、読み出した音声データに、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、この音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値（すなわち、ピッチ長）を求める（ステップＳ３）。（あるいは、コンピュータ１０２は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を２個特定し、これら２個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。）
なお、ケプストラム解析としては、具体的には、まず、読み出した音声データの強度を、元の値の対数（対数の底は任意）に実質的に等しい値へと変換し、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。
一方、自己相関関数に基づく解析としては、具体的には、読み出した音声データを用いてまず、数式１の右辺により表される自己相関関数ｒ（１）を特定する。そして、自己相関関数ｒ（１）をフーリエ変換した結果得られる関数（ピリオドグラム）の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。（ただし、Ｎは音声データのサンプルの総数であり、ｘ（α）は、音声データの先頭からα番目のサンプルの値である。）

一方、コンピュータ１０２は、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する（ステップＳ４）。そして、コンピュータ１０２は、ピッチ長とピッチ信号のゼロクロスの周期とが互いに所定量以上異なっているか否かを判別し（ステップＳ５）、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップＳ６）。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップＳ７）。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような通過帯域幅であることが望ましい。
次に、コンピュータ１０２は、生成したピッチ信号の単位周期（例えば１周期）の境界が来るタイミング（具体的には、ピッチ信号がゼロクロスするタイミング）で、記録媒体から読み出した音声データを区切る（ステップＳ８）。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する（ステップＳ９）。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する（ステップＳ１０）。
具体的には、コンピュータ１０２は、それぞれの区間毎に、例えば、数式２の右辺により表される値ｃｏｒを、位相を表すφ（ただし、φは０以上の整数）の値を種々変化させた場合それぞれについて求める。そして、値ｃｏｒが最大になるようなφの値Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュータ１０２は、この区間内の音声データを、（−Ψ）だけ移相する。（ただし、ｎは区間内のサンプルの総数であり、ｆ（β）は、区間内の音声データの先頭からβ番目のサンプルの値であり、ｇ（γ）は、区間内のピッチ信号の先頭からγ番目のサンプルの値である。）

音声データを上述の通り移相することにより得られるデータ（ピッチ波形データ）が表す波形の一例を図３（ｃ）に示す。図３（ａ）に示す位相前の音声データの波形のうち、「＃１」及び「＃２」として示す２個の区間は、図３（ｂ）に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、ピッチ波形データが表す波形の区間＃１及び＃２は、図３（ｃ）に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、図３（ａ）に示すように、各区間の始点の値は０に近い値となっている。
なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形データのデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。
次に、コンピュータ１０２は、ピッチ波形データに、区間毎に比例定数を乗じることにより振幅を変更し、振幅が変更されたピッチ波形データを生成する（ステップＳ１１）。ステップＳ１１では、どの区間にどのような値の比例定数を乗じたかを示す比例定数データも生成する。
音声データに乗じる比例定数は、ピッチ波形データの各区間の振幅の実効値が、互いに共通した一定値になるように決定する。すなわち、例えばこの一定値をＪとした場合、コンピュータ１０２は、一定値Ｊをピッチ波形データの区間の振幅の実効値Ｋで除した値（Ｊ／Ｋ）を求める。この値（Ｊ／Ｋ）が、この区間に乗じる比例定数である。これにより、ピッチ波形データの区間毎の比例定数が定まる。
次に、コンピュータ１０２は、振幅を変更されたピッチ波形データの各区間をサンプリングし直す（リサンプリングする）。また、各区間の元のサンプル数を示すサンプル数データも生成する（ステップＳ１２）。
なお、コンピュータ１０２は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。
次に、コンピュータ１０２は、リサンプリングされたピッチ波形データのサンプル間を補間する値を表すデータ（補間データ）を生成する（ステップＳ１３）。リサンプリングされたピッチ波形データと、補間データとが、補間後のピッチ波形データを構成する。なお、コンピュータ１０２は、例えば、ラグランジェ補間やグレゴリー・ニュートン補間の手法で補間を行えばよい。
そして、コンピュータ１０２は、生成した比例定数データ及びサンプル数データと、補間後のピッチ波形データとを、互いに対応付けて出力する（ステップＳ１４）。
なお、ラグランジェ補間及びグレゴリー・ニュートン補間は、いずれも、波形の持つ高調波成分が比較的小さく抑えられる補間の手法である。しかし、両手法は２点間の補間のために用いる関数が互いに異なるので、補間されるサンプルの値によっては、両手法間で高調波成分の量が異なってくる。
そこで、コンピュータ１０２は、両手法の長所を生かすべく、両手法を併用することによってピッチ波形データの高調波歪みの更なる軽減を図るようにしてもよい。
具体的には、まずコンピュータ１０２は、リサンプリングされたピッチ波形データのサンプル間をラグランジェ補間の手法により補間する値を表すデータ（ラグランジェ補間データ）を生成する。リサンプリングされたピッチ波形データと、ラグランジェ補間データとが、ラグランジェ補間後のピッチ波形データを構成する。
一方、コンピュータ１０２は、リサンプリングされたピッチ波形データのサンプル間をグレゴリー・ニュートン補間の手法により補間する値を表すデータ（グレゴリー・ニュートン補間データ）も生成する。リサンプリングされたピッチ波形データと、グレゴリー・ニュートン補間データとが、グレゴリー・ニュートン補間後のピッチ波形データを構成する。
次に、コンピュータ１０２は、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により、ラグランジェ補間後のピッチ波形データのスペクトルと、グレゴリー・ニュートン補間後のピッチ波形データのスペクトルとを求める。
次に、コンピュータ１０２は、ラグランジェ補間後のピッチ波形データのスペクトルと、グレゴリー・ニュートン補間後のピッチ波形データのスペクトルとに基づいて、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのいずれの方が高調波ひずみが少ないかを判別する。
ピッチ波形データの各区間をリサンプリングすると、各区間の波形に歪みが生じることが考えられる。しかし、コンピュータ１０２は、複数の手法で補間されたピッチ波形データのうち高調波成分が最小となるものを選択するので、コンピュータ１０２が最終的に出力するピッチ波形データに含まれる高調波成分の量は小さく抑えられる。
なお、コンピュータ１０２は、ラグランジェ補間後のピッチ波形データのスペクトル及びグレゴリー・ニュートン補間後のピッチ波形データのスペクトルについて、それぞれ、基本周波数の２倍以上の成分の実効値を求め、求めた実効値が小さい方を、高調波ひずみの少ない方のピッチ波形データのスペクトルと特定することにより、判別を行うようにすればよい。
そして、コンピュータ１０２は、生成した比例定数データ及びサンプル数データと、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのうち、高調波ひずみが少ないと判別した方とを、互いに対応付けて出力する。
コンピュータ１０２が出力するピッチ波形データは、単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのスペクトルからはフォルマントを示す鋭いピークが得られ、ピッチ波形データからは高精度にフォルマントを抽出することができる。
具体的には、ピッチのゆらぎが除去されていない状態の音声データのスペクトルは、例えば図４（ａ）に示すように、ピッチのゆらぎのため明確なピークを生じることなくブロードな分布を示す。
一方、図４（ａ）に示すスペクトルを有する音声データから、このピッチ波形抽出システムを用いてピッチ波形データを生成すると、このピッチ波形データのスペクトルは、例えば図４（ｂ）に示すものとなる。図示するように、このピッチ波形データのスペクトルは、フォルマントの明確なピークを含んだものとなる。
また、ピッチのゆらぎが除去されていない状態の音声データから導かれるサブバンドデータ（つまり、この音声データが表す各フォルマント成分の強度の時間変化を表すデータ）は、例えば図５（ａ）に示すように、ピッチのゆらぎのため、短い周期で変動を繰り返す複雑な波形を示す。
一方、図４（ｂ）にスペクトルを示すピッチ波形データから導かれるサブバンドデータは、例えば図５（ｂ）に示すように、直流成分を多く含んだ変動の少ない波形を示す。
なお、図５（ａ）（又は図５（ｂ））において、「ＢＮＤ０」として示すグラフは音声データ（又はピッチ波形データ）が表す音声の基本周波数成分の強度の時間変化を示す。また、「ＢＮＤｋ」（ただし、ｋは１から８までの整数）として示すグラフは、音声データ（又はピッチ波形データ）が表す音声の（ｋ＋１）次高調波成分の強度の時間変化を示す。
また、コンピュータ１０２が出力するピッチ波形データからはピッチのゆらぎの影響が除去されているため、ピッチ波形データから高い再現性をもってフォルマント成分が抽出されるようになる。つまり、同一の話者の音声を表すピッチ波形データからは実質的に同一のフォルマント成分が容易に抽出されるようになる。従って、例えばコードブックを利用した手法により音声の圧縮を行う場合にも、複数の機会に得られた当該話者のフォルマントのデータを混用することが容易である。
また、サンプル数データを用いてピッチ波形データの各区間の元の時間長を特定することができ、比例定数データを用いてピッチ波形データの各区間の元の振幅を特定することができる。このため、ピッチ波形データの各区間の長さや振幅を、元の音声データにおける長さや振幅へと復元することにより、元の音声データを容易に復元できる。
なお、このピッチ波形抽出システムの構成は上述のものに限られない。
たとえば、コンピュータ１０２は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、コンピュータ１０２は、例えばモデムやＤＳＵ（ＤａｔａＳｅｒｖｉｃｅＵｎｉｔ）等からなる通信制御部を備えていればよい。またこの場合、記録媒体ドライバ１０１は不要である。
また、コンピュータ１０２は、マイクロフォン、ＡＦ（ＡｕｄｉｏＦｒｅｑｕｅｎｃｙ）増幅器、サンプラー、Ａ／Ｄ（Ａｎａｌｏｇ−ｔｏ−Ｄｉｇｉｔａｌ）コンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、コンピュータ１０２は、が取得する音声データは、必ずしもＰＣＭ信号である必要はない。
また、コンピュータ１０２は、比例定数データ、サンプル数データ及びピッチ波形データを、通信回線を介して外部に供給するようにしてもよい。この場合も、コンピュータ１０２は、モデムやＤＳＵ等からなる通信制御部を備えていればよい。
また、コンピュータ１０２は、比例定数データ、サンプル数データ及びピッチ波形データを、記録媒体ドライバ１０１にセットされた記録媒体に、記録媒体ドライバ１０１を介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、コンピュータ１０２は、ハードディスクコントローラ等の制御回路を備えていればよい。
また、コンピュータ１０２が行う補間の手法は、ラグランジェ補間やグレゴリー・ニュートン補間に限られず、他の手法によってもよい。また、コンピュータ１０２は、音声データを３種類以上の手法で補間してもっとも高調波ひずみが少ないものをピッチ波形データとして選択するようにしてもよい。また、コンピュータ１０２は、１個の補間処理部が音声データを１種類の手法で補間してそのままピッチ波形データとして扱うようにしてもよい。
また、コンピュータ１０２は、必ずしも音声データの振幅の実効値を揃える必要はない。
また、コンピュータ１０２は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。
また、コンピュータ１０２が音声データの各区間内の音声データを移相する量は（−Ψ）である必要はなく、例えば、コンピュータ１０２は、初期位相を表す各区間に共通な実数をδとして、それぞれの区間につき、（−Ψ＋δ）だけ、音声データを移相するようにしてもよい。また、コンピュータ１０２が音声データの音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が０でない所定の値となるタイミングであってもよい。
しかし、初期位相αを０とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は０に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。
なお、コンピュータ１０２は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、ピッチ波形抽出プログラムは、ピッチ波形抽出プログラムを格納した媒体（ＣＤ−ＲＯＭ、ＭＯ、フレキシブルディスク等）からコンピュータ１０２へとインストールするようにしてもよいし、通信回線の掲示板（ＢＢＳ）にピッチ波形抽出プログラムをアップロードし、これを通信回線を介して配信してもよい。また、ピッチ波形抽出プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してピッチ波形抽出プログラムを復元するようにしてもよい。
また、ピッチ波形抽出プログラムは、ＯＳの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータ１０２に実行させることにより、上述の処理を実行することができる。なお、ＯＳが上述の処理の一部を分担する場合、記録媒体に格納されるピッチ波形抽出プログラムは、当該処理を制御する部分を除いたものであってもよい。
（第２の実施の形態）
図６は、この発明の第２の実施の形態に係るピッチ波形抽出システムの構成を示す図である。図示するように、このピッチ波形抽出システムは、音声入力部１と、ケプストラム解析部２と、自己相関解析部３と、重み計算部４と、ＢＰＦ係数計算部５と、ＢＰＦ（バンドパスフィルタ）６と、ゼロクロス解析部７と、波形相関解析部８と、位相調整部９と、振幅固定部１０と、ピッチ長固定部１１と、補間処理部１２Ａ及び１２Ｂと、フーリエ変換部１３Ａ及び１３Ｂと、波形選択部１４と、ピッチ波形出力部１５とより構成されている。
音声入力部１は、例えば、第１の実施の形態における記録媒体ドライバ１０１と同様の記録媒体ドライバ等より構成されている。
音声入力部１は、音声の波形を表す音声データを入力して、ケプストラム解析部２、自己相関解析部３、ＢＰＦ６、波形相関解析部８及び振幅固定部１０に供給する。
なお、音声データは、ＰＣＭ変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
ケプストラム解析部２、自己相関解析部３、重み計算部４、ＢＰＦ係数計算部５、ＢＰＦ６、ゼロクロス解析部７、波形相関解析部８、位相調整部９、振幅固定部１０、ピッチ長固定部１１、補間処理部１２Ａ、補間処理部１２Ｂ、フーリエ変換部１３Ａ、フーリエ変換部１３Ｂ、波形選択部１４及びピッチ波形出力部１５は、それぞれ、専用の電子回路、あるいは、ＤＳＰやＣＰＵ等から構成されている。
なお、ケプストラム解析部２、自己相関解析部３、重み計算部４、ＢＰＦ係数計算部５、ＢＰＦ６、ゼロクロス解析部７、波形相関解析部８、位相調整部９、振幅固定部１０、ピッチ長固定部１１、補間処理部１２Ａ、補間処理部１２Ｂ、フーリエ変換部１３Ａ、フーリエ変換部１３Ｂ、波形選択部１４及びピッチ波形出力部１５の一部又は全部の機能を同一のＤＳＰやＣＰＵが行ってもよい。
このピッチ波形抽出システムは、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。
すなわち、まず、ケプストラム解析部２は、音声入力部１より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部４へと供給する。
具体的には、ケプストラム解析部２は、音声入力部１より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。（対数の底は任意である。）
次に、ケプストラム解析部２は、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部４へと供給する。
一方、自己相関解析部３は、音声入力部１より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部４へと供給する。
具体的には、自己相関解析部３は、音声入力部１より音声データを供給されるとまず、上述した自己相関関数ｒ（１）を特定する。そして、特定した自己相関関数ｒ（１）をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部４へと供給する。
重み計算部４は、ケプストラム解析部２及び自己相関解析部３より基本周波数を示すデータを１個ずつ合計２個供給されると、これら２個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値（すなわち、平均ピッチ長）を示すデータを生成し、ＢＰＦ係数計算部５へと供給する。
ＢＰＦ係数計算部５は、平均ピッチ長を示すデータを重み計算部４より供給され、ゼロクロス解析部７より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数（ＢＰＦ６の通過帯域の中央の周波数）とするように、ＢＰＦ６の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、ＢＰＦ６の周波数特性を制御する。
ＢＰＦ６は、中心周波数が可変なＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）型のフィルタの機能を行う。
具体的には、ＢＰＦ６は、自己の中心周波数を、ＢＰＦ係数計算部５の制御に従った値に設定する。そして、音声入力部１より供給される音声データをフィルタリングして、フィルタリングされた音声データ（ピッチ信号）を、ゼロクロス解析部７及び波形相関解析部８へと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、ＢＰＦ６の帯域幅は、ＢＰＦ６の通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような帯域幅であることが望ましい。
ゼロクロス解析部７は、ＢＰＦ６から供給されたピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）が来るタイミングを特定し、特定したタイミングを表す信号（ゼロクロス信号）を、ＢＰＦ係数計算部５へと供給する。このようにして、音声データのピッチの長さが特定される。
ただし、ゼロクロス解析部７は、ピッチ信号の瞬時値が０でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてＢＰＦ係数計算部５へと供給するようにしてもよい。
波形相関解析部８は、音声入力部１より音声データを供給され、波形相関解析部８よりピッチ信号を供給されると、ピッチ信号の単位周期（例えば１周期）の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。
具体的には、波形相関解析部８は、それぞれの区間毎に、例えば、上述した値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部９に供給する。なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。
位相調整部９は、音声入力部１より音声データを供給され、波形相関解析部８より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を（−Ψ）だけ移相することにより、各区間の位相を揃える。そして、移相された音声データ（すなわちピッチ波形データ）を振幅固定部１０に供給する。
振幅固定部１０は、ピッチ波形データを位相調整部９より供給されると、このピッチ波形データに、区間毎に比例定数を乗じることにより振幅を変更し、振幅が変更されたピッチ波形データをピッチ長固定部１１に供給する。また、どの区間にどのような値の比例定数を乗じたかを示す比例定数データを生成して、ピッチ波形出力部１５に供給する。このようにして、各区間につき音声データに乗じる比例定数が特定される。なお、音声データに乗じる比例定数は、ピッチ波形データの各区間の振幅の実効値が、互いに共通した一定値になるように決定するものとする。
ピッチ長固定部１１は、振幅を変更されたピッチ波形データを振幅固定部１０より供給されると、この音声データの各区間をサンプリングし直し（リサンプリングし）、リサンプリングされたピッチ波形データを、補間処理部１２Ａ及び１２Ｂに供給する。
また、ピッチ長固定部１１は、各区間の元のサンプル数を示すサンプル数データを生成し、ピッチ波形出力部１５に供給する。
なお、ピッチ長固定部１１は、音声データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングする。
補間処理部１２Ａ及び１２Ｂは、２種類の補間の手法を併用して、ピッチ波形データの補間を行う。
すなわち、補間処理部１２Ａは、リサンプリングされたピッチ波形データをピッチ長固定部１１より供給されると、このピッチ波形データのサンプル間をラグランジェ補間の手法により補間する値を表すデータを生成し、このデータ（ラグランジェ補間データ）を、リサンプリングされたピッチ波形データと共に、フーリエ変換部１３Ａ及び波形選択部１４に供給する。リサンプリングされたピッチ波形データと、ラグランジェ補間データとが、ラグランジェ補間後のピッチ波形データを構成する。
一方、補間処理部１２Ｂは、ピッチ長固定部１１より供給されたピッチ波形データのサンプル間をグレゴリー・ニュートン補間の手法により補間する値を表すデータ（グレゴリー・ニュートン補間データ）を生成して、リサンプリングされたピッチ波形データと共に、フーリエ変換部１３Ｂ及び波形選択部１４に供給する。リサンプリングされたピッチ波形データと、グレゴリー・ニュートン補間データとが、グレゴリー・ニュートン補間後のピッチ波形データを構成する。
フーリエ変換部１３Ａ（又は１３Ｂ）は、補間処理部１２Ａ（又は１２Ｂ）よりラグランジェ補間後のピッチ波形データ（又はグレゴリー・ニュートン補間後のピッチ波形データ）を供給されると、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により、このピッチ波形データのスペクトルを求める。そして、求めたスペクトルを表すデータを、波形選択部１４へと供給する。
波形選択部１４は、補間処理部１２Ａ及び１２Ｂより同一の音声を表す補間後のピッチ波形データを供給され、これらのピッチ波形データのスペクトルをフーリエ変換部１３Ａ及び１３Ｂより供給されると、供給されたスペクトルに基づいて、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのいずれの方が高調波ひずみが少ないかを判別する。そして、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのうち、高調波ひずみが少ないと判別した方を、ピッチ波形出力部１５に供給する。
ピッチ波形出力部１５は、振幅固定部１０より比例定数データを供給され、ピッチ長固定部１１よりサンプル数データを供給され、波形選択部１４よりピッチ波形データを供給されると、これら３個のデータを互いに対応付けて出力する。
ピッチ波形出力部１５より出力されるピッチ波形データも、単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのスペクトルからはフォルマントを示す鋭いピークが得られ、ピッチ波形データからは高精度にフォルマントを抽出することができる。
また、ピッチ波形出力部１５より出力されるピッチ波形データからはピッチのゆらぎの影響が除去されているため、ピッチ波形データから高い再現性をもってフォルマント成分が抽出されるようになる。
また、サンプル数データを用いてピッチ波形データの各区間の元の時間長を特定することができ、比例定数データを用いてピッチ波形データの各区間の元の振幅を特定することができる。
なお、このピッチ波形抽出システムの構成も上述のものに限られない。
たとえば、音声入力部１は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声入力部１は、例えばモデムやＤＳＵ等からなる通信制御部を備えていればよい。
また、音声入力部１は、マイクロフォン、ＡＦ増幅器、サンプラー、Ａ／Ｄコンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、音声入力部１が取得する音声データは、必ずしもＰＣＭ信号である必要はない。
また、ピッチ波形出力部１５は、比例定数データ、サンプル数データ及びピッチ波形データを、通信回線を介して外部に供給するようにしてもよい。この場合、ピッチ波形出力部１５は、モデムやＤＳＵ等からなる通信制御部を備えていればよい。
また、ピッチ波形出力部１５は、比例定数データ、サンプル数データ及びピッチ波形データを、外部の記録媒体や、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、ピッチ波形出力部１５は、記録媒体ドライバや、ハードディスクコントローラ等の制御回路を備えていればよい。
また、補間処理部１２Ａ及び１２Ｂが行う補間の手法は、ラグランジェ補間やグレゴリー・ニュートン補間に限られず、他の手法によってもよい。また、このピッチ波形抽出システムは、音声データを３種類以上の手法で補間してもっとも高調波ひずみが少ないものをピッチ波形データとして選択するようにしてもよい。
また、このピッチ波形抽出システムは、１個の補間処理部が音声データを１種類の手法で補間してそのままピッチ波形データとして扱うようにしてもよい。この場合、このピッチ波形抽出システムは、フーリエ変換部１３Ａ又は１３Ｂを備える必要がなく、また波形選択部１４を備える必要もない。
また、このピッチ波形抽出システムは、必ずしも音声データの振幅の実効値を揃える必要はない。従って振幅固定部１０は必須の構成ではなく、位相調整部９は移相された音声データを直ちにピッチ長固定部１１に供給してよい。
また、このピッチ波形抽出システムは、ケプストラム解析部２（又は自己相関解析部３）を備えていなくてもよく、この場合、重み計算部４は、ケプストラム解析部２（又は自己相関解析部３）が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
また、ゼロクロス解析部７は、ＢＰＦ６から供給されたピッチ信号を、そのままゼロクロス信号としてＢＰＦ係数計算部５へと供給するようにしてもよい。
以上説明したように、この発明によれば、ピッチが揺らぎを含む音声のスペクトルを正確に特定できるようにするためのピッチ波形信号生成装置及びピッチ波形信号生成方法が実現される。
なお、この発明は上記実施の形態に限定されず、種々の変形及び応用が可能である。
なお、この特許出願は、平成１３年８月３１日に日本国特許庁に出願された特願２００１−２６３３９５のパリ条約に基づく優先権を主張する出願であり、この日本国特許出願の内容は、参照のため、この明細書に取り込むものとする。
【図面の簡単な説明】
図１は、この発明の第１の実施の形態に係るピッチ波形抽出システムの構成を示す図である。
図２は、図１のピッチ波形抽出システムの動作の流れを示す図である。
図３の（ａ）及び（ｂ）は、移相される前の音声データの波形を示すグラフであり、（ｃ）は、ピッチ波形データの波形を表すグラフである。
図４の（ａ）は、従来の手法により得られる音声のスペクトルの例であり、（ｂ）は、この発明の実施の形態に係るピッチ波形抽出システムにより得られるピッチ波形データのスペクトルの例である。
図５の（ａ）は、従来の手法により得られる音声を表す音声データから得られるサブバンドデータが表す波形の例であり、（ｂ）は、この発明の実施の形態に係るピッチ波形抽出システムにより得られるピッチ波形データから得られるサブバンドデータが表す波形の例である。
図６は、この発明の第２の実施の形態に係るピッチ波形抽出システムの構成を示す図である。

Claims

入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、を備える、
ことを特徴とするピッチ波形信号生成装置。
前記音声信号の基本周波数と前記ピッチ信号とに基づいて前記フィルタのフィルタ係数を決定するフィルタ係数決定手段（１０２，５）を更に備え、
前記フィルタは、前記フィルタ係数決定手段による決定に従って自己のフィルタ係数を変更する、
ことを特徴とする請求項１に記載のピッチ波形信号生成装置。
前記位相調整手段は、前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて求めた位相へと移相するものである、
ことを特徴とする請求項１に記載のピッチ波形信号生成装置。
前記位相調整手段は、
前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて、移相後の位相を特定する位相特定手段（１０２，８）と、
各前記区間を、前記位相特定手段が特定した位相に移相し、各該区間の振幅に定数を乗じて該振幅を変更する手段（１０２，９）と、を備える、
ことを特徴とする請求項１に記載のピッチ波形信号生成装置。
前記定数は、各前記区間の振幅の実効値が互いに共通した一定値となるような値である、
ことを特徴とする請求項４に記載のピッチ波形信号生成装置。
前記ピッチ波形信号生成手段は、各前記区間について、前記定数と、前記サンプリング信号のサンプル数とに更に基づいて、前記ピッチ波形信号を生成するものである、
ことを特徴とする請求項５に記載のピッチ波形信号生成装置。
前記位相調整手段は、前記フィルタにより抽出されたピッチ信号が実質的に０となるタイミングが来る時点が前記区間の始点となるように、前記音声信号を前記区間に区切る、
ことを特徴とする請求項１に記載のピッチ波形信号生成装置。
信号生成装置において、音声のピッチを特定し（１０２，７）、特定したピッチの値に基づき、単位ピッチ分の音声信号からなる区間へと前記音声信号を区切り（１０２，８）、各区間内の音声信号の位相を調整することにより当該音声信号をピッチ波形信号へと加工する（１０２，９）、ことを特徴とするピッチ波形信号生成装置。
入力された音声信号をフィルタリングしてピッチ信号を抽出し（１０２，６）、
抽出された前記ピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し（１０２，７，８，９）、
位相を調整された各前記区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し（１０２，１１）、
前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成する（１０２，１５）、
ことを特徴とするピッチ波形信号生成方法。
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、
して機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、
して機能させるためのプログラムを表す、搬送波に埋め込まれたコンピュータデータ信号。
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ（１０２，６）と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段（１０２，７，８，９）と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段（１０２，１１）と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段（１０２，１５）と、
して機能させるためのプログラム。