JPWO2003019530A1 - ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム - Google Patents
ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム Download PDFInfo
- Publication number
- JPWO2003019530A1 JPWO2003019530A1 JP2003522907A JP2003522907A JPWO2003019530A1 JP WO2003019530 A1 JPWO2003019530 A1 JP WO2003019530A1 JP 2003522907 A JP2003522907 A JP 2003522907A JP 2003522907 A JP2003522907 A JP 2003522907A JP WO2003019530 A1 JPWO2003019530 A1 JP WO2003019530A1
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- signal
- phase
- sampling
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 title claims description 27
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 75
- 230000005236 sound signal Effects 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 6
- 230000010363 phase shift Effects 0.000 claims description 3
- 239000011295 pitch Substances 0.000 description 264
- 238000001228 spectrum Methods 0.000 description 31
- 238000000605 extraction Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000005311 autocorrelation function Methods 0.000 description 9
- 238000010219 correlation analysis Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
この発明は、ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラムに関する。
背景技術
声の信号をパラメータ化して扱う場合には、声の信号を、波形情報よりも周波数情報として扱う場合が多くある。例えば音声合成では、一般に、声のピッチやフォルマントを利用した手法が多く採用されている。
ピッチやフォルマントを、人間の声の発生過程に即して説明すると、人間の声の発生過程はまず、声帯部を振動させて、パルスの列からなるような音を発生させることから始まる。このパルスは、言葉の音素毎に特有なある一定の周期で発生し、この周期が「ピッチ」と呼ばれている。このパルスのスペクトルは、ピッチの整数倍の間隔で並ぶ比較的強いスペクトル成分を含みつつ、幅広い周波数帯に分布する。
次に、このパルスが声道を通過すると、このパルスは、声道や舌の形状によって作られる空間でフィルタリングされる。このフィルタリングの結果、このパルスのうちある周波数成分のみが強調されるような音ができる。(すなわち、フォルマントが生成される。)以上が、声の発生過程である。
声道や舌を動かすと、声帯が発生したパルスのうち強調される周波数成分は変化する。このため、この変化と言葉とを対応付ければ、音声による会話が成立する。従って、音声合成をしたい場合、声道のフィルタ特性をシミュレートすれば、原理的には、肉声感のある声質をもつ合成音声を得ることができることになる。
しかし、実際には、人間の声道の変化は非常に複雑なため、通常利用できる計算機の能力では、人間の声道のシミュレーションは非常に困難である。従って、声道のシミュレーションは、声道をある程度単純化したモデルを想定して行わざるを得ない。また、ピッチも人間の感情や意識に影響されやすく、ある程度は一定とみなせる周期であるものの、現実には微妙にゆらぎを生じる。ピッチのこのような変化を計算機でシミュレートすることはほぼ不可能である。
従って、声のピッチやフォルマントを利用する従来の手法では、肉声感のあるリアルな音質での音声合成が非常に困難である。
一方、コーパス方式と呼ばれる音声合成の手法がある。これは、現実の人間の声の波形を音素、ピッチ毎に分類してデータベース化し、これらの波形を、テキスト等に合致するようつなぎ合わせることで音声合成を行う手法である。この手法では、人間の現実の声の波形が使用されるので、シミュレーションでは得られない肉声感のあるリアルな声質が得られる。
しかし、人間の発生する声には非常に多様なパターンがあり、感情表現まで含めて考えると、ほぼ無限である。従って、上述のデータベースに格納すべき波形の数は、膨大なものとなってしまう。そこで、データベースのデータ容量を圧縮する手法が望まれている。
データベースのデータ容量を圧縮する手法としては、テキスト等から特定される本来の音素を表す波形がない場合にはこの音素に最もよく近似できる音素を選択するようにする手法が提案されている。
しかし、この手法を行ってもデータベースのデータ容量はなお相当大容量となる上、本来用いられるべきでない音素を不自然につなぎ合わせて音声を合成することになるので、合成音声が、つながりの悪い不自然なものになってしまう、という問題がある。
そこで、データベースのデータ容量を圧縮する手法として、データベースに格納される個々の波形を圧縮する手法が用いられる。波形を圧縮する手法としては、波形をスペクトルに変換してから、マスキング効果のため人間に聴き取られにくくなる成分を削除する、という手法が考えられる。このような手法は、MP3(MPEG1 audio layer 3)や、ATRAC(Adaptive TRansform Acoustic Coding)、AAC(Advanced Audio Coding)などの圧縮技術において用いられている。
しかし、ここで問題になるのが、上述したピッチのゆらぎである。
人間が発声する音声のスペクトルは一般に、ピッチの逆数にあたる間隔で並ぶ、比較的強いスペクトルをもつ。従って、ピッチにゆらぎがない音声であれば、マスキング効果を利用した上述の圧縮が効率的に行える。しかし、ピッチは、話者の感情や意識(情緒)によりゆらぐので、同一話者が同じ言葉(音素)を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。このため、人間が現に発声した音声を複数ピッチ分に渡ってサンプリングし、スペクトルを解析すると、解析結果には、上述の比較的強いスペクトルが現れず、このようなスペクトルに基づいてマスキング効果を利用した圧縮を行っても、効率的に圧縮できない。
発明の開示
この発明は、上記実状に鑑みてなされたものであり、ピッチが揺らぎを含む音声のスペクトルを正確に特定できるようにするためのピッチ波形信号生成装置及びピッチ波形信号生成方法を提供することを目的とする。
上記目的を達成すべく、この発明の第1の観点にかかるピッチ波形信号生成装置は、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、を備える、
ことを特徴とする。
ピッチ波形信号生成装置は、前記音声信号の基本周波数と前記ピッチ信号とに基づいて前記フィルタのフィルタ係数を決定するフィルタ係数決定手段(102,5)を更に備えていてもよく、この場合、前記フィルタは、前記フィルタ係数決定手段による決定に従って自己のフィルタ係数を変更するものであってもよい。
前記位相調整手段は、前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて求めた位相へと移相するものであってもよい。
前記位相調整手段は、
前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて、移相後の位相を特定する位相特定手段(102,8)と、
各前記区間を、前記位相特定手段が特定した位相に移相し、各該区間の振幅に定数を乗じて該振幅を変更する手段(102,9)と、を備えるものであってもよい。
前記定数は、例えば、各前記区間の振幅の実効値が互いに共通した一定値となるような値である。
前記ピッチ波形信号生成手段は、各前記区間について、前記定数と、前記サンプリング信号のサンプル数とに更に基づいて、前記ピッチ波形信号を生成するものであってもよい。
前記位相調整手段は、前記フィルタにより抽出されたピッチ信号が実質的に0となるタイミングが来る時点が前記区間の始点となるように、前記音声信号を前記区間に区切るものであってもよい。
また、この発明の第2の観点にかかるピッチ波形信号生成装置は、信号生成装置において、音声のピッチを特定し(102,7)、特定したピッチの値に基づき、単位ピッチ分の音声信号からなる区間へと前記音声信号を区切り(102,8)、各区間内の音声信号の位相を調整することにより当該音声信号をピッチ波形信号へと加工する(102,9)、ことを特徴とする。
また、この発明の第3の観点にかかるピッチ波形信号生成方法は、
入力された音声信号をフィルタリングしてピッチ信号を抽出し(102,6)、
抽出された前記ピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し(102,7,8,9)、
位相を調整された各前記区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し(102,11)、
前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成する(102,15)、
ことを特徴とする。
また、この発明の第4の観点にかかるコンピュータ読み取り可能な記録媒体は、
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、
して機能させるためのプログラムを記録したことを特徴とする。
また、この発明の第5の観点にかかる、搬送波に埋め込まれたコンピュータデータ信号は、
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、
して機能させるためのプログラムを表すことを特徴とする。
また、この発明の第6の観点にかかるプログラムは、
コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、
して機能させるためのものであることを特徴とする。
発明を実施するための最良の形態
以下に、図面を参照して、この発明の実施の形態を説明する。
(第1の実施の形態)
図1は、この発明の第1の実施の形態に係るピッチ波形抽出システムの構成を示す図である。図示するように、このピッチ波形抽出システムは、記録媒体(例えば、フレキシブルディスクやMO(Magneto Optical disk)など)に記録されたデータを読み取る記録媒体ドライバ(フレキシブルディスクドライブや、MOドライブなど)101と、記録媒体ドライバ101に接続されたコンピュータ102とより構成されている。
コンピュータ102は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等からなるプロセッサや、RAM(Random Access Memory)等からなる揮発性メモリや、ハードディスク装置等からなる不揮発性メモリや、キーボード等からなる入力部や、CRT(陰極線管)等からなる出力部などからなっている。コンピュータ102はピッチ波形抽出プログラムを予め記憶しており、このピッチ波形抽出プログラムを実行することにより後述する処理を行う。
(第1の実施の形態:動作)
次に、このピッチ波形抽出システムの動作を、図2を参照して説明する。図2は、図1のピッチ波形抽出システムの動作の流れを示す図である。
ユーザが、音声の波形を表す音声データを記録した記録媒体を記録媒体ドライバ101にセットして、コンピュータ102に、ピッチ波形抽出プログラムの起動を指示すると、コンピュータ102は、ピッチ波形抽出プログラムの処理を開始する。
すると、まず、コンピュータ102は、記録媒体ドライバ101を介し、記録媒体より音声データを読み出す(図2、ステップS1)。なお、音声データは、PCM(Pulse Code Modulation)変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
次に、コンピュータ102は、記録媒体より読み出された音声データをフィルタリングすることにより、フィルタリングされた音声データ(ピッチ信号)を生成する(ステップS2)。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、コンピュータ102は、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)とに基づくフィードバック処理を行うことにより決定する。
すなわち、コンピュータ102は、読み出した音声データに、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、この音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値(すなわち、ピッチ長)を求める(ステップS3)。(あるいは、コンピュータ102は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を2個特定し、これら2個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。)
なお、ケプストラム解析としては、具体的には、まず、読み出した音声データの強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。
一方、自己相関関数に基づく解析としては、具体的には、読み出した音声データを用いてまず、数式1の右辺により表される自己相関関数r(1)を特定する。そして、自己相関関数r(1)をフーリエ変換した結果得られる関数(ピリオドグラム)の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。(ただし、Nは音声データのサンプルの総数であり、x(α)は、音声データの先頭からα番目のサンプルの値である。)
一方、コンピュータ102は、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する(ステップS4)。そして、コンピュータ102は、ピッチ長とピッチ信号のゼロクロスの周期とが互いに所定量以上異なっているか否かを判別し(ステップS5)、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS6)。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS7)。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような通過帯域幅であることが望ましい。
次に、コンピュータ102は、生成したピッチ信号の単位周期(例えば1周期)の境界が来るタイミング(具体的には、ピッチ信号がゼロクロスするタイミング)で、記録媒体から読み出した音声データを区切る(ステップS8)。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する(ステップS9)。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する(ステップS10)。
具体的には、コンピュータ102は、それぞれの区間毎に、例えば、数式2の右辺により表される値corを、位相を表すφ(ただし、φは0以上の整数)の値を種々変化させた場合それぞれについて求める。そして、値corが最大になるようなφの値Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュータ102は、この区間内の音声データを、(−Ψ)だけ移相する。(ただし、nは区間内のサンプルの総数であり、f(β)は、区間内の音声データの先頭からβ番目のサンプルの値であり、g(γ)は、区間内のピッチ信号の先頭からγ番目のサンプルの値である。)
音声データを上述の通り移相することにより得られるデータ(ピッチ波形データ)が表す波形の一例を図3(c)に示す。図3(a)に示す位相前の音声データの波形のうち、「#1」及び「#2」として示す2個の区間は、図3(b)に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、ピッチ波形データが表す波形の区間#1及び#2は、図3(c)に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、図3(a)に示すように、各区間の始点の値は0に近い値となっている。
なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形データのデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。
次に、コンピュータ102は、ピッチ波形データに、区間毎に比例定数を乗じることにより振幅を変更し、振幅が変更されたピッチ波形データを生成する(ステップS11)。ステップS11では、どの区間にどのような値の比例定数を乗じたかを示す比例定数データも生成する。
音声データに乗じる比例定数は、ピッチ波形データの各区間の振幅の実効値が、互いに共通した一定値になるように決定する。すなわち、例えばこの一定値をJとした場合、コンピュータ102は、一定値Jをピッチ波形データの区間の振幅の実効値Kで除した値(J/K)を求める。この値(J/K)が、この区間に乗じる比例定数である。これにより、ピッチ波形データの区間毎の比例定数が定まる。
次に、コンピュータ102は、振幅を変更されたピッチ波形データの各区間をサンプリングし直す(リサンプリングする)。また、各区間の元のサンプル数を示すサンプル数データも生成する(ステップS12)。
なお、コンピュータ102は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。
次に、コンピュータ102は、リサンプリングされたピッチ波形データのサンプル間を補間する値を表すデータ(補間データ)を生成する(ステップS13)。リサンプリングされたピッチ波形データと、補間データとが、補間後のピッチ波形データを構成する。なお、コンピュータ102は、例えば、ラグランジェ補間やグレゴリー・ニュートン補間の手法で補間を行えばよい。
そして、コンピュータ102は、生成した比例定数データ及びサンプル数データと、補間後のピッチ波形データとを、互いに対応付けて出力する(ステップS14)。
なお、ラグランジェ補間及びグレゴリー・ニュートン補間は、いずれも、波形の持つ高調波成分が比較的小さく抑えられる補間の手法である。しかし、両手法は2点間の補間のために用いる関数が互いに異なるので、補間されるサンプルの値によっては、両手法間で高調波成分の量が異なってくる。
そこで、コンピュータ102は、両手法の長所を生かすべく、両手法を併用することによってピッチ波形データの高調波歪みの更なる軽減を図るようにしてもよい。
具体的には、まずコンピュータ102は、リサンプリングされたピッチ波形データのサンプル間をラグランジェ補間の手法により補間する値を表すデータ(ラグランジェ補間データ)を生成する。リサンプリングされたピッチ波形データと、ラグランジェ補間データとが、ラグランジェ補間後のピッチ波形データを構成する。
一方、コンピュータ102は、リサンプリングされたピッチ波形データのサンプル間をグレゴリー・ニュートン補間の手法により補間する値を表すデータ(グレゴリー・ニュートン補間データ)も生成する。リサンプリングされたピッチ波形データと、グレゴリー・ニュートン補間データとが、グレゴリー・ニュートン補間後のピッチ波形データを構成する。
次に、コンピュータ102は、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により、ラグランジェ補間後のピッチ波形データのスペクトルと、グレゴリー・ニュートン補間後のピッチ波形データのスペクトルとを求める。
次に、コンピュータ102は、ラグランジェ補間後のピッチ波形データのスペクトルと、グレゴリー・ニュートン補間後のピッチ波形データのスペクトルとに基づいて、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのいずれの方が高調波ひずみが少ないかを判別する。
ピッチ波形データの各区間をリサンプリングすると、各区間の波形に歪みが生じることが考えられる。しかし、コンピュータ102は、複数の手法で補間されたピッチ波形データのうち高調波成分が最小となるものを選択するので、コンピュータ102が最終的に出力するピッチ波形データに含まれる高調波成分の量は小さく抑えられる。
なお、コンピュータ102は、ラグランジェ補間後のピッチ波形データのスペクトル及びグレゴリー・ニュートン補間後のピッチ波形データのスペクトルについて、それぞれ、基本周波数の2倍以上の成分の実効値を求め、求めた実効値が小さい方を、高調波ひずみの少ない方のピッチ波形データのスペクトルと特定することにより、判別を行うようにすればよい。
そして、コンピュータ102は、生成した比例定数データ及びサンプル数データと、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのうち、高調波ひずみが少ないと判別した方とを、互いに対応付けて出力する。
コンピュータ102が出力するピッチ波形データは、単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのスペクトルからはフォルマントを示す鋭いピークが得られ、ピッチ波形データからは高精度にフォルマントを抽出することができる。
具体的には、ピッチのゆらぎが除去されていない状態の音声データのスペクトルは、例えば図4(a)に示すように、ピッチのゆらぎのため明確なピークを生じることなくブロードな分布を示す。
一方、図4(a)に示すスペクトルを有する音声データから、このピッチ波形抽出システムを用いてピッチ波形データを生成すると、このピッチ波形データのスペクトルは、例えば図4(b)に示すものとなる。図示するように、このピッチ波形データのスペクトルは、フォルマントの明確なピークを含んだものとなる。
また、ピッチのゆらぎが除去されていない状態の音声データから導かれるサブバンドデータ(つまり、この音声データが表す各フォルマント成分の強度の時間変化を表すデータ)は、例えば図5(a)に示すように、ピッチのゆらぎのため、短い周期で変動を繰り返す複雑な波形を示す。
一方、図4(b)にスペクトルを示すピッチ波形データから導かれるサブバンドデータは、例えば図5(b)に示すように、直流成分を多く含んだ変動の少ない波形を示す。
なお、図5(a)(又は図5(b))において、「BND0」として示すグラフは音声データ(又はピッチ波形データ)が表す音声の基本周波数成分の強度の時間変化を示す。また、「BNDk」(ただし、kは1から8までの整数)として示すグラフは、音声データ(又はピッチ波形データ)が表す音声の(k+1)次高調波成分の強度の時間変化を示す。
また、コンピュータ102が出力するピッチ波形データからはピッチのゆらぎの影響が除去されているため、ピッチ波形データから高い再現性をもってフォルマント成分が抽出されるようになる。つまり、同一の話者の音声を表すピッチ波形データからは実質的に同一のフォルマント成分が容易に抽出されるようになる。従って、例えばコードブックを利用した手法により音声の圧縮を行う場合にも、複数の機会に得られた当該話者のフォルマントのデータを混用することが容易である。
また、サンプル数データを用いてピッチ波形データの各区間の元の時間長を特定することができ、比例定数データを用いてピッチ波形データの各区間の元の振幅を特定することができる。このため、ピッチ波形データの各区間の長さや振幅を、元の音声データにおける長さや振幅へと復元することにより、元の音声データを容易に復元できる。
なお、このピッチ波形抽出システムの構成は上述のものに限られない。
たとえば、コンピュータ102は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、コンピュータ102は、例えばモデムやDSU(Data Service Unit)等からなる通信制御部を備えていればよい。またこの場合、記録媒体ドライバ101は不要である。
また、コンピュータ102は、マイクロフォン、AF(Audio Frequency)増幅器、サンプラー、A/D(Analog−to−Digital)コンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、コンピュータ102は、が取得する音声データは、必ずしもPCM信号である必要はない。
また、コンピュータ102は、比例定数データ、サンプル数データ及びピッチ波形データを、通信回線を介して外部に供給するようにしてもよい。この場合も、コンピュータ102は、モデムやDSU等からなる通信制御部を備えていればよい。
また、コンピュータ102は、比例定数データ、サンプル数データ及びピッチ波形データを、記録媒体ドライバ101にセットされた記録媒体に、記録媒体ドライバ101を介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、コンピュータ102は、ハードディスクコントローラ等の制御回路を備えていればよい。
また、コンピュータ102が行う補間の手法は、ラグランジェ補間やグレゴリー・ニュートン補間に限られず、他の手法によってもよい。また、コンピュータ102は、音声データを3種類以上の手法で補間してもっとも高調波ひずみが少ないものをピッチ波形データとして選択するようにしてもよい。また、コンピュータ102は、1個の補間処理部が音声データを1種類の手法で補間してそのままピッチ波形データとして扱うようにしてもよい。
また、コンピュータ102は、必ずしも音声データの振幅の実効値を揃える必要はない。
また、コンピュータ102は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。
また、コンピュータ102が音声データの各区間内の音声データを移相する量は(−Ψ)である必要はなく、例えば、コンピュータ102は、初期位相を表す各区間に共通な実数をδとして、それぞれの区間につき、(−Ψ+δ)だけ、音声データを移相するようにしてもよい。また、コンピュータ102が音声データの音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が0でない所定の値となるタイミングであってもよい。
しかし、初期位相αを0とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は0に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。
なお、コンピュータ102は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、ピッチ波形抽出プログラムは、ピッチ波形抽出プログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)からコンピュータ102へとインストールするようにしてもよいし、通信回線の掲示板(BBS)にピッチ波形抽出プログラムをアップロードし、これを通信回線を介して配信してもよい。また、ピッチ波形抽出プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してピッチ波形抽出プログラムを復元するようにしてもよい。
また、ピッチ波形抽出プログラムは、OSの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータ102に実行させることにより、上述の処理を実行することができる。なお、OSが上述の処理の一部を分担する場合、記録媒体に格納されるピッチ波形抽出プログラムは、当該処理を制御する部分を除いたものであってもよい。
(第2の実施の形態)
図6は、この発明の第2の実施の形態に係るピッチ波形抽出システムの構成を示す図である。図示するように、このピッチ波形抽出システムは、音声入力部1と、ケプストラム解析部2と、自己相関解析部3と、重み計算部4と、BPF係数計算部5と、BPF(バンドパスフィルタ)6と、ゼロクロス解析部7と、波形相関解析部8と、位相調整部9と、振幅固定部10と、ピッチ長固定部11と、補間処理部12A及び12Bと、フーリエ変換部13A及び13Bと、波形選択部14と、ピッチ波形出力部15とより構成されている。
音声入力部1は、例えば、第1の実施の形態における記録媒体ドライバ101と同様の記録媒体ドライバ等より構成されている。
音声入力部1は、音声の波形を表す音声データを入力して、ケプストラム解析部2、自己相関解析部3、BPF6、波形相関解析部8及び振幅固定部10に供給する。
なお、音声データは、PCM変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
ケプストラム解析部2、自己相関解析部3、重み計算部4、BPF係数計算部5、BPF6、ゼロクロス解析部7、波形相関解析部8、位相調整部9、振幅固定部10、ピッチ長固定部11、補間処理部12A、補間処理部12B、フーリエ変換部13A、フーリエ変換部13B、波形選択部14及びピッチ波形出力部15は、それぞれ、専用の電子回路、あるいは、DSPやCPU等から構成されている。
なお、ケプストラム解析部2、自己相関解析部3、重み計算部4、BPF係数計算部5、BPF6、ゼロクロス解析部7、波形相関解析部8、位相調整部9、振幅固定部10、ピッチ長固定部11、補間処理部12A、補間処理部12B、フーリエ変換部13A、フーリエ変換部13B、波形選択部14及びピッチ波形出力部15の一部又は全部の機能を同一のDSPやCPUが行ってもよい。
このピッチ波形抽出システムは、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。
すなわち、まず、ケプストラム解析部2は、音声入力部1より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部4へと供給する。
具体的には、ケプストラム解析部2は、音声入力部1より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。(対数の底は任意である。)
次に、ケプストラム解析部2は、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部4へと供給する。
一方、自己相関解析部3は、音声入力部1より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部4へと供給する。
具体的には、自己相関解析部3は、音声入力部1より音声データを供給されるとまず、上述した自己相関関数r(1)を特定する。そして、特定した自己相関関数r(1)をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部4へと供給する。
重み計算部4は、ケプストラム解析部2及び自己相関解析部3より基本周波数を示すデータを1個ずつ合計2個供給されると、これら2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値(すなわち、平均ピッチ長)を示すデータを生成し、BPF係数計算部5へと供給する。
BPF係数計算部5は、平均ピッチ長を示すデータを重み計算部4より供給され、ゼロクロス解析部7より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数(BPF6の通過帯域の中央の周波数)とするように、BPF6の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、BPF6の周波数特性を制御する。
BPF6は、中心周波数が可変なFIR(Finite Impulse Response)型のフィルタの機能を行う。
具体的には、BPF6は、自己の中心周波数を、BPF係数計算部5の制御に従った値に設定する。そして、音声入力部1より供給される音声データをフィルタリングして、フィルタリングされた音声データ(ピッチ信号)を、ゼロクロス解析部7及び波形相関解析部8へと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、BPF6の帯域幅は、BPF6の通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような帯域幅であることが望ましい。
ゼロクロス解析部7は、BPF6から供給されたピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)が来るタイミングを特定し、特定したタイミングを表す信号(ゼロクロス信号)を、BPF係数計算部5へと供給する。このようにして、音声データのピッチの長さが特定される。
ただし、ゼロクロス解析部7は、ピッチ信号の瞬時値が0でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてBPF係数計算部5へと供給するようにしてもよい。
波形相関解析部8は、音声入力部1より音声データを供給され、波形相関解析部8よりピッチ信号を供給されると、ピッチ信号の単位周期(例えば1周期)の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。
具体的には、波形相関解析部8は、それぞれの区間毎に、例えば、上述した値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部9に供給する。なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。
位相調整部9は、音声入力部1より音声データを供給され、波形相関解析部8より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を(−Ψ)だけ移相することにより、各区間の位相を揃える。そして、移相された音声データ(すなわちピッチ波形データ)を振幅固定部10に供給する。
振幅固定部10は、ピッチ波形データを位相調整部9より供給されると、このピッチ波形データに、区間毎に比例定数を乗じることにより振幅を変更し、振幅が変更されたピッチ波形データをピッチ長固定部11に供給する。また、どの区間にどのような値の比例定数を乗じたかを示す比例定数データを生成して、ピッチ波形出力部15に供給する。このようにして、各区間につき音声データに乗じる比例定数が特定される。なお、音声データに乗じる比例定数は、ピッチ波形データの各区間の振幅の実効値が、互いに共通した一定値になるように決定するものとする。
ピッチ長固定部11は、振幅を変更されたピッチ波形データを振幅固定部10より供給されると、この音声データの各区間をサンプリングし直し(リサンプリングし)、リサンプリングされたピッチ波形データを、補間処理部12A及び12Bに供給する。
また、ピッチ長固定部11は、各区間の元のサンプル数を示すサンプル数データを生成し、ピッチ波形出力部15に供給する。
なお、ピッチ長固定部11は、音声データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングする。
補間処理部12A及び12Bは、2種類の補間の手法を併用して、ピッチ波形データの補間を行う。
すなわち、補間処理部12Aは、リサンプリングされたピッチ波形データをピッチ長固定部11より供給されると、このピッチ波形データのサンプル間をラグランジェ補間の手法により補間する値を表すデータを生成し、このデータ(ラグランジェ補間データ)を、リサンプリングされたピッチ波形データと共に、フーリエ変換部13A及び波形選択部14に供給する。リサンプリングされたピッチ波形データと、ラグランジェ補間データとが、ラグランジェ補間後のピッチ波形データを構成する。
一方、補間処理部12Bは、ピッチ長固定部11より供給されたピッチ波形データのサンプル間をグレゴリー・ニュートン補間の手法により補間する値を表すデータ(グレゴリー・ニュートン補間データ)を生成して、リサンプリングされたピッチ波形データと共に、フーリエ変換部13B及び波形選択部14に供給する。リサンプリングされたピッチ波形データと、グレゴリー・ニュートン補間データとが、グレゴリー・ニュートン補間後のピッチ波形データを構成する。
フーリエ変換部13A(又は13B)は、補間処理部12A(又は12B)よりラグランジェ補間後のピッチ波形データ(又はグレゴリー・ニュートン補間後のピッチ波形データ)を供給されると、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により、このピッチ波形データのスペクトルを求める。そして、求めたスペクトルを表すデータを、波形選択部14へと供給する。
波形選択部14は、補間処理部12A及び12Bより同一の音声を表す補間後のピッチ波形データを供給され、これらのピッチ波形データのスペクトルをフーリエ変換部13A及び13Bより供給されると、供給されたスペクトルに基づいて、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのいずれの方が高調波ひずみが少ないかを判別する。そして、ラグランジェ補間後のピッチ波形データ及びグレゴリー・ニュートン補間後のピッチ波形データのうち、高調波ひずみが少ないと判別した方を、ピッチ波形出力部15に供給する。
ピッチ波形出力部15は、振幅固定部10より比例定数データを供給され、ピッチ長固定部11よりサンプル数データを供給され、波形選択部14よりピッチ波形データを供給されると、これら3個のデータを互いに対応付けて出力する。
ピッチ波形出力部15より出力されるピッチ波形データも、単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのスペクトルからはフォルマントを示す鋭いピークが得られ、ピッチ波形データからは高精度にフォルマントを抽出することができる。
また、ピッチ波形出力部15より出力されるピッチ波形データからはピッチのゆらぎの影響が除去されているため、ピッチ波形データから高い再現性をもってフォルマント成分が抽出されるようになる。
また、サンプル数データを用いてピッチ波形データの各区間の元の時間長を特定することができ、比例定数データを用いてピッチ波形データの各区間の元の振幅を特定することができる。
なお、このピッチ波形抽出システムの構成も上述のものに限られない。
たとえば、音声入力部1は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声入力部1は、例えばモデムやDSU等からなる通信制御部を備えていればよい。
また、音声入力部1は、マイクロフォン、AF増幅器、サンプラー、A/Dコンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、音声入力部1が取得する音声データは、必ずしもPCM信号である必要はない。
また、ピッチ波形出力部15は、比例定数データ、サンプル数データ及びピッチ波形データを、通信回線を介して外部に供給するようにしてもよい。この場合、ピッチ波形出力部15は、モデムやDSU等からなる通信制御部を備えていればよい。
また、ピッチ波形出力部15は、比例定数データ、サンプル数データ及びピッチ波形データを、外部の記録媒体や、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、ピッチ波形出力部15は、記録媒体ドライバや、ハードディスクコントローラ等の制御回路を備えていればよい。
また、補間処理部12A及び12Bが行う補間の手法は、ラグランジェ補間やグレゴリー・ニュートン補間に限られず、他の手法によってもよい。また、このピッチ波形抽出システムは、音声データを3種類以上の手法で補間してもっとも高調波ひずみが少ないものをピッチ波形データとして選択するようにしてもよい。
また、このピッチ波形抽出システムは、1個の補間処理部が音声データを1種類の手法で補間してそのままピッチ波形データとして扱うようにしてもよい。この場合、このピッチ波形抽出システムは、フーリエ変換部13A又は13Bを備える必要がなく、また波形選択部14を備える必要もない。
また、このピッチ波形抽出システムは、必ずしも音声データの振幅の実効値を揃える必要はない。従って振幅固定部10は必須の構成ではなく、位相調整部9は移相された音声データを直ちにピッチ長固定部11に供給してよい。
また、このピッチ波形抽出システムは、ケプストラム解析部2(又は自己相関解析部3)を備えていなくてもよく、この場合、重み計算部4は、ケプストラム解析部2(又は自己相関解析部3)が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
また、ゼロクロス解析部7は、BPF6から供給されたピッチ信号を、そのままゼロクロス信号としてBPF係数計算部5へと供給するようにしてもよい。
以上説明したように、この発明によれば、ピッチが揺らぎを含む音声のスペクトルを正確に特定できるようにするためのピッチ波形信号生成装置及びピッチ波形信号生成方法が実現される。
なお、この発明は上記実施の形態に限定されず、種々の変形及び応用が可能である。
なお、この特許出願は、平成13年8月31日に日本国特許庁に出願された特願2001−263395のパリ条約に基づく優先権を主張する出願であり、この日本国特許出願の内容は、参照のため、この明細書に取り込むものとする。
【図面の簡単な説明】
図1は、この発明の第1の実施の形態に係るピッチ波形抽出システムの構成を示す図である。
図2は、図1のピッチ波形抽出システムの動作の流れを示す図である。
図3の(a)及び(b)は、移相される前の音声データの波形を示すグラフであり、(c)は、ピッチ波形データの波形を表すグラフである。
図4の(a)は、従来の手法により得られる音声のスペクトルの例であり、(b)は、この発明の実施の形態に係るピッチ波形抽出システムにより得られるピッチ波形データのスペクトルの例である。
図5の(a)は、従来の手法により得られる音声を表す音声データから得られるサブバンドデータが表す波形の例であり、(b)は、この発明の実施の形態に係るピッチ波形抽出システムにより得られるピッチ波形データから得られるサブバンドデータが表す波形の例である。
図6は、この発明の第2の実施の形態に係るピッチ波形抽出システムの構成を示す図である。
Claims (12)
- 入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、を備える、
ことを特徴とするピッチ波形信号生成装置。 - 前記音声信号の基本周波数と前記ピッチ信号とに基づいて前記フィルタのフィルタ係数を決定するフィルタ係数決定手段(102,5)を更に備え、
前記フィルタは、前記フィルタ係数決定手段による決定に従って自己のフィルタ係数を変更する、
ことを特徴とする請求項1に記載のピッチ波形信号生成装置。 - 前記位相調整手段は、前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて求めた位相へと移相するものである、
ことを特徴とする請求項1に記載のピッチ波形信号生成装置。 - 前記位相調整手段は、
前記ピッチ信号の単位周期毎に音声信号を区切ることにより各前記区間を決定し、各該区間について、位相を種々変化させたものと前記ピッチ信号との相関に基づいて、移相後の位相を特定する位相特定手段(102,8)と、
各前記区間を、前記位相特定手段が特定した位相に移相し、各該区間の振幅に定数を乗じて該振幅を変更する手段(102,9)と、を備える、
ことを特徴とする請求項1に記載のピッチ波形信号生成装置。 - 前記定数は、各前記区間の振幅の実効値が互いに共通した一定値となるような値である、
ことを特徴とする請求項4に記載のピッチ波形信号生成装置。 - 前記ピッチ波形信号生成手段は、各前記区間について、前記定数と、前記サンプリング信号のサンプル数とに更に基づいて、前記ピッチ波形信号を生成するものである、
ことを特徴とする請求項5に記載のピッチ波形信号生成装置。 - 前記位相調整手段は、前記フィルタにより抽出されたピッチ信号が実質的に0となるタイミングが来る時点が前記区間の始点となるように、前記音声信号を前記区間に区切る、
ことを特徴とする請求項1に記載のピッチ波形信号生成装置。 - 信号生成装置において、音声のピッチを特定し(102,7)、特定したピッチの値に基づき、単位ピッチ分の音声信号からなる区間へと前記音声信号を区切り(102,8)、各区間内の音声信号の位相を調整することにより当該音声信号をピッチ波形信号へと加工する(102,9)、ことを特徴とするピッチ波形信号生成装置。
- 入力された音声信号をフィルタリングしてピッチ信号を抽出し(102,6)、
抽出された前記ピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し(102,7,8,9)、
位相を調整された各前記区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し(102,11)、
前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成する(102,15)、
ことを特徴とするピッチ波形信号生成方法。 - コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、
して機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、
して機能させるためのプログラムを表す、搬送波に埋め込まれたコンピュータデータ信号。 - コンピュータを、
入力された音声信号をフィルタリングしてピッチ信号を抽出するフィルタ(102,6)と、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段(102,7,8,9)と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段(102,11)と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号からピッチ波形信号を生成するピッチ波形信号生成手段(102,15)と、
して機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001263395 | 2001-08-31 | ||
JP2001263395 | 2001-08-31 | ||
PCT/JP2002/008820 WO2003019530A1 (fr) | 2001-08-31 | 2002-08-30 | Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2003019530A1 true JPWO2003019530A1 (ja) | 2004-12-16 |
JP4170217B2 JP4170217B2 (ja) | 2008-10-22 |
Family
ID=19090157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003522907A Expired - Fee Related JP4170217B2 (ja) | 2001-08-31 | 2002-08-30 | ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040220801A1 (ja) |
EP (1) | EP1422693B1 (ja) |
JP (1) | JP4170217B2 (ja) |
CN (2) | CN100568343C (ja) |
DE (1) | DE60229757D1 (ja) |
WO (1) | WO2003019530A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003019527A1 (fr) | 2001-08-31 | 2003-03-06 | Kabushiki Kaisha Kenwood | Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant |
JP3947871B2 (ja) * | 2002-12-02 | 2007-07-25 | Necインフロンティア株式会社 | 音声データ送受信方式 |
JP4407305B2 (ja) * | 2003-02-17 | 2010-02-03 | 株式会社ケンウッド | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
CN1848240B (zh) * | 2005-04-12 | 2011-12-21 | 佳能株式会社 | 基于离散对数傅立叶变换的基音检测方法、设备和介质 |
JP2009501909A (ja) * | 2005-07-18 | 2009-01-22 | トグノラ,ディエゴ,ジュセッペ | 信号処理方法およびシステム |
WO2007029633A1 (ja) * | 2005-09-06 | 2007-03-15 | Nec Corporation | 音声合成装置及び方法とプログラム |
CN101542593B (zh) * | 2007-03-12 | 2013-04-17 | 富士通株式会社 | 语音波形内插装置及方法 |
CN101030375B (zh) * | 2007-04-13 | 2011-01-26 | 清华大学 | 一种基于动态规划的基音周期提取方法 |
CN101383148B (zh) * | 2007-09-07 | 2012-04-18 | 华为终端有限公司 | 一种获取基音周期的方法和装置 |
EP2360680B1 (en) * | 2009-12-30 | 2012-12-26 | Synvo GmbH | Pitch period segmentation of speech signals |
US9236064B2 (en) | 2012-02-15 | 2016-01-12 | Microsoft Technology Licensing, Llc | Sample rate converter with automatic anti-aliasing filter |
US9640172B2 (en) | 2012-03-02 | 2017-05-02 | Yamaha Corporation | Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
WO2015166694A1 (ja) * | 2014-05-01 | 2015-11-05 | 日本電信電話株式会社 | 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体 |
CN105871339B (zh) * | 2015-01-20 | 2020-05-08 | 普源精电科技股份有限公司 | 一种灵活的可分段调制的信号发生器 |
CN105448289A (zh) * | 2015-11-16 | 2016-03-30 | 努比亚技术有限公司 | 一种语音合成、删除方法、装置及语音删除合成方法 |
CN105931651B (zh) * | 2016-04-13 | 2019-09-24 | 南方科技大学 | 助听设备中的语音信号处理方法、装置及助听设备 |
CN107958672A (zh) * | 2017-12-12 | 2018-04-24 | 广州酷狗计算机科技有限公司 | 获取基音波形数据的方法和装置 |
CN108269579B (zh) * | 2018-01-18 | 2020-11-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
CN108682413B (zh) * | 2018-04-24 | 2020-09-29 | 上海师范大学 | 一种基于语音转换的情感疏导系统 |
CN109346106B (zh) * | 2018-09-06 | 2022-12-06 | 河海大学 | 一种基于子带信噪比加权的倒谱域基音周期估计方法 |
CN111289093A (zh) * | 2018-12-06 | 2020-06-16 | 珠海格力电器股份有限公司 | 一种空调异响噪音评判方法及系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
EP0248593A1 (en) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Preprocessing system for speech recognition |
JPH05307399A (ja) * | 1992-05-01 | 1993-11-19 | Sony Corp | 音声分析方式 |
JPH06289897A (ja) * | 1993-03-31 | 1994-10-18 | Sony Corp | 音声信号処理装置 |
US5864812A (en) * | 1994-12-06 | 1999-01-26 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
JP2976860B2 (ja) * | 1995-09-13 | 1999-11-10 | 松下電器産業株式会社 | 再生装置 |
JP3424787B2 (ja) * | 1996-03-12 | 2003-07-07 | ヤマハ株式会社 | 演奏情報検出装置 |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
US6490562B1 (en) * | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
JP3576800B2 (ja) * | 1997-04-09 | 2004-10-13 | 松下電器産業株式会社 | 音声分析方法、及びプログラム記録媒体 |
DE69932786T2 (de) * | 1998-05-11 | 2007-08-16 | Koninklijke Philips Electronics N.V. | Tonhöhenerkennung |
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
JP3883318B2 (ja) * | 1999-01-26 | 2007-02-21 | 沖電気工業株式会社 | 音声素片作成方法及び装置 |
JP2000250569A (ja) * | 1999-03-03 | 2000-09-14 | Yamaha Corp | 圧縮オーディオ信号補正器、および圧縮オーディオ信号再生装置 |
JP4489231B2 (ja) * | 2000-02-23 | 2010-06-23 | 富士通マイクロエレクトロニクス株式会社 | 遅延時間調整方法と遅延時間調整回路 |
JP2002091475A (ja) * | 2000-09-18 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声合成方法 |
WO2003019527A1 (fr) * | 2001-08-31 | 2003-03-06 | Kabushiki Kaisha Kenwood | Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant |
-
2002
- 2002-08-30 WO PCT/JP2002/008820 patent/WO2003019530A1/ja active Application Filing
- 2002-08-30 CN CNB2005100740685A patent/CN100568343C/zh not_active Expired - Lifetime
- 2002-08-30 EP EP02772827A patent/EP1422693B1/en not_active Expired - Lifetime
- 2002-08-30 US US10/415,415 patent/US20040220801A1/en not_active Abandoned
- 2002-08-30 DE DE60229757T patent/DE60229757D1/de not_active Expired - Lifetime
- 2002-08-30 JP JP2003522907A patent/JP4170217B2/ja not_active Expired - Fee Related
- 2002-08-30 CN CNB028028252A patent/CN1224956C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN1473325A (zh) | 2004-02-04 |
CN1702736A (zh) | 2005-11-30 |
DE60229757D1 (de) | 2008-12-18 |
CN1224956C (zh) | 2005-10-26 |
CN100568343C (zh) | 2009-12-09 |
US20040220801A1 (en) | 2004-11-04 |
WO2003019530A1 (fr) | 2003-03-06 |
JP4170217B2 (ja) | 2008-10-22 |
EP1422693A4 (en) | 2007-02-14 |
EP1422693A1 (en) | 2004-05-26 |
EP1422693B1 (en) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4170217B2 (ja) | ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム | |
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
US6336092B1 (en) | Targeted vocal transformation | |
Kawahara | Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
US8229738B2 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
Alku et al. | Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering | |
WO2019138871A1 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JP3430985B2 (ja) | 合成音生成装置 | |
JP3881932B2 (ja) | 音声信号補間装置、音声信号補間方法及びプログラム | |
JPH04358200A (ja) | 音声合成装置 | |
JP4256189B2 (ja) | 音声信号圧縮装置、音声信号圧縮方法及びプログラム | |
JP5711645B2 (ja) | オーディオ信号出力装置およびオーディオ信号出力方法 | |
JP3994332B2 (ja) | 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム | |
JP3994333B2 (ja) | 音声辞書作成装置、音声辞書作成方法、及び、プログラム | |
JP7088403B2 (ja) | 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム | |
JP3976169B2 (ja) | 音声信号加工装置、音声信号加工方法及びプログラム | |
JPH09510554A (ja) | 言語合成 | |
JPH07261798A (ja) | 音声分析合成装置 | |
JP2003216172A (ja) | 音声信号加工装置、音声信号加工方法及びプログラム | |
JP3592617B2 (ja) | 音声合成方法、その装置及びそのプログラム記録媒体 | |
JP3302075B2 (ja) | 合成パラメータ変換方法および装置 | |
Gokhale et al. | Analysis and synthesis of speech using least P th norm filter design | |
JP2007110451A (ja) | 音声信号調整装置、音声信号調整方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080729 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080806 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4170217 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130815 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |