JPS63221399A - 音声分析方法 - Google Patents
音声分析方法Info
- Publication number
- JPS63221399A JPS63221399A JP62055892A JP5589287A JPS63221399A JP S63221399 A JPS63221399 A JP S63221399A JP 62055892 A JP62055892 A JP 62055892A JP 5589287 A JP5589287 A JP 5589287A JP S63221399 A JPS63221399 A JP S63221399A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- waveform
- frame
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 18
- 238000000034 method Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 8
- 239000011295 pitch Substances 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(発明の属する分野)
本発明は音声分析方式、殊に短時間区間を切出した音声
波形からその音声の特徴を表わした信号を抽出する方式
に関する。
波形からその音声の特徴を表わした信号を抽出する方式
に関する。
(従来技術)
音声波形を分析し出来得る限シ少ないデータによってそ
の音声の特徴を表わし、これを合成して再び音声に復元
する技術が各種分野に於いて用いられるようになった。
の音声の特徴を表わし、これを合成して再び音声に復元
する技術が各種分野に於いて用いられるようになった。
従来2分析区間(フレーム)は処理の簡便さから20〜
30m5程度の固定長としているため。
30m5程度の固定長としているため。
音声波形の複数ピッチを含み、そのフレーム内で徐々に
変化している音声の特徴パラメータを平均化して抽出す
ることになシ、隣接フレームの特徴パラメータと比して
変動の小さい安定なパラメータが得られていたが、平均
化しているという点からそのフレームの特徴パラメータ
自体音声の真のa*V表現し得す、さらに、徐々にでは
あるが時間方向に対し変化している音声の特徴に追従で
きないという欠点があった。また2発声環境によって音
声の特徴の変化は一定していないため1発声環境によっ
て平均化の程度が異なシ、抽出した特徴パラメータに優
劣が生じる。
変化している音声の特徴パラメータを平均化して抽出す
ることになシ、隣接フレームの特徴パラメータと比して
変動の小さい安定なパラメータが得られていたが、平均
化しているという点からそのフレームの特徴パラメータ
自体音声の真のa*V表現し得す、さらに、徐々にでは
あるが時間方向に対し変化している音声の特徴に追従で
きないという欠点があった。また2発声環境によって音
声の特徴の変化は一定していないため1発声環境によっ
て平均化の程度が異なシ、抽出した特徴パラメータに優
劣が生じる。
これに対しフレーム長を可変とし、lピッチ長を対応さ
せれば平均化する区間が狭くなるため、フレーム間の特
徴パラメータの変動は大きくなるものの、よシ真の音声
の特徴に近いパラメータを抽出することが出来9時間方
向の音声の特徴変化にも追従出来るので原音声によシ近
い合成音を得ることができる。
せれば平均化する区間が狭くなるため、フレーム間の特
徴パラメータの変動は大きくなるものの、よシ真の音声
の特徴に近いパラメータを抽出することが出来9時間方
向の音声の特徴変化にも追従出来るので原音声によシ近
い合成音を得ることができる。
(発明の目的)
本発明は上述した可変フレーム方式の利点を生かすべく
なされたものであって、固定フレーム方式に比べ音声の
真の特徴をよシ正確に抽出し得る音声分析方式を提供す
ることを目的とする。
なされたものであって、固定フレーム方式に比べ音声の
真の特徴をよシ正確に抽出し得る音声分析方式を提供す
ることを目的とする。
(発明の概要)
本発明はこの目的を達成するために以下の構成をとる。
即ち可変フレーム方式の音声分析方式に於いて該1フレ
ームを対象音声波形の1ピッチとすると共に1分析する
際使用する窓関数に於ける関数値の最大部に前記音声波
形のうちその特徴を最も良く表わす部分が位置するよう
に各フレーム区間を設定する。
ームを対象音声波形の1ピッチとすると共に1分析する
際使用する窓関数に於ける関数値の最大部に前記音声波
形のうちその特徴を最も良く表わす部分が位置するよう
に各フレーム区間を設定する。
又、前記窓関数が一般的に用いられるハミング窓関数の
如く中央部が最大関数値を持つ場合、各フレームのスタ
ート点から1/4フレーム長後方近傍に音声波形のピー
クが位置するように設定する。
如く中央部が最大関数値を持つ場合、各フレームのスタ
ート点から1/4フレーム長後方近傍に音声波形のピー
クが位置するように設定する。
(実施例)
以下図示した実施例に基づいて本発明の詳細な説明する
。
。
第1図は本発明に係かる音声の分析合成方式の一例を示
すフローチャートである。
すフローチャートである。
これを第2図に示した音声波形例を参照しながら説明す
る。
る。
有声音波形は一般的に第2図に示す如くピーク1が存在
し、かつこのピークは音声の基本周波数に対応した周期
をもって出現する。
し、かつこのピークは音声の基本周波数に対応した周期
をもって出現する。
そこで、第1図に示す如く第1ステツプにてこのピーク
位置を検出し、これに基づ亀第2ステップにてピークか
ら次のピークまでの間隔即ちピッチ周期を求める。次に
9以上2つの結果から音声波形に於ける分析区間切出し
を行うが、この際分析区間を1ピッチ長とし、更に前記
ピッチの1/4分だけ当該音声波形のピーク位置から前
置位置を区間切出しフレームのスタート点とする如く設
定する。
位置を検出し、これに基づ亀第2ステップにてピークか
ら次のピークまでの間隔即ちピッチ周期を求める。次に
9以上2つの結果から音声波形に於ける分析区間切出し
を行うが、この際分析区間を1ピッチ長とし、更に前記
ピッチの1/4分だけ当該音声波形のピーク位置から前
置位置を区間切出しフレームのスタート点とする如く設
定する。
即ち2分析すべき波形は時間と共に変化しビ、チ等も変
化するが1分析区間切り出しを行う毎に当該波形のピッ
チに対応して各フレーム長を変更する(第3ステツプ)
。
化するが1分析区間切り出しを行う毎に当該波形のピッ
チに対応して各フレーム長を変更する(第3ステツプ)
。
このように切出した波形は第4ステツプに於いて窓関数
を乗じたのち第5ステツプにて特徴パラメータの抽出を
行い、WL6ステツプの音声合成に於いて再び音声に変
換する。
を乗じたのち第5ステツプにて特徴パラメータの抽出を
行い、WL6ステツプの音声合成に於いて再び音声に変
換する。
上述した手続によって所望波形に関し繰返し分析/合成
を行うことKよって必要データを得るものである。
を行うことKよって必要データを得るものである。
なお、ステップ4の窓かけではハミング窓。
ハニング窓、ブラックマン窓等の時間窓のいずれを、ス
テップ5ではPARCORLSP ケプストラム等の
いずれの特徴パラメータを抽出しても良く、ステップ6
ではステップ5で抽出した特徴パラメータに対応した合
成フィルタを用いて音声合成を行う如く既存の技術を適
用することが出来るので詳細な説明は省略する。
テップ5ではPARCORLSP ケプストラム等の
いずれの特徴パラメータを抽出しても良く、ステップ6
ではステップ5で抽出した特徴パラメータに対応した合
成フィルタを用いて音声合成を行う如く既存の技術を適
用することが出来るので詳細な説明は省略する。
このような手順にて分析/合成を行った結果、従来の方
式による合成音声に比べてよシ原音声に近いものが得ら
れた。
式による合成音声に比べてよシ原音声に近いものが得ら
れた。
この理由は明確ではないが、推察するに、切シ出した音
声波形を窓かけ処理する際に用いる窓関数の時間関数値
の最大部分は一般に中央に位置するが、鉄部に音声波形
のいずれの部分が位置するかくよつて分析/合成結果に
著しい差異を生ずるものであろうと考えられる。
声波形を窓かけ処理する際に用いる窓関数の時間関数値
の最大部分は一般に中央に位置するが、鉄部に音声波形
のいずれの部分が位置するかくよつて分析/合成結果に
著しい差異を生ずるものであろうと考えられる。
即ち、143図に示す如く窓関数の中央最大部分に音声
波形の各部を位置せしめる実験を行ったところ、同図(
a)のように窓関数両端にピークを位置させたもの、(
C)のように中央にピークを位置させたもの或は(d)
の如くピークを中央よシ右側に位置せしめたものより
(blに示すようにピークをスタート点よシはぼフレー
ムの1/4だけずらした位置にし九ときが最良の結果を
得た。
波形の各部を位置せしめる実験を行ったところ、同図(
a)のように窓関数両端にピークを位置させたもの、(
C)のように中央にピークを位置させたもの或は(d)
の如くピークを中央よシ右側に位置せしめたものより
(blに示すようにピークをスタート点よシはぼフレー
ムの1/4だけずらした位置にし九ときが最良の結果を
得た。
このことは音声波形のピークよシ1/4フレーム長だけ
遅れた部分にその音声の特命を最もよく表わす情報が含
まれていると考えることができる。
遅れた部分にその音声の特命を最もよく表わす情報が含
まれていると考えることができる。
従って、上述した実施例に限らず音声の特徴を最も良く
表わす部分が窓関数最大部に位置するよう設定すればよ
いことが理解できよう。
表わす部分が窓関数最大部に位置するよう設定すればよ
いことが理解できよう。
また、無声音についてはピッチ区間に相当するフレーム
長を定めて有声音の場合と同様に処理する。
長を定めて有声音の場合と同様に処理する。
は自明であろう。
更に本発明によれば、原音声によシ近い分析が可能であ
るから、音声認識手段に本応用可能なること当然であっ
て本発明の応用範囲は極めて広いものである。
るから、音声認識手段に本応用可能なること当然であっ
て本発明の応用範囲は極めて広いものである。
(発明の効果)
本発明は以上説明した如く可変長フレーム方式に於ける
フレームvk:1ピップとすると共に用いる窓関数の最
大部に音声の%tを最もよく表わす部分を位置せしめた
ものであるから可変長フレーム方式の利点を生かしかつ
原音声に極めて近い音声分析/合成を行う方法をもたら
すことで効果がある。
フレームvk:1ピップとすると共に用いる窓関数の最
大部に音声の%tを最もよく表わす部分を位置せしめた
ものであるから可変長フレーム方式の利点を生かしかつ
原音声に極めて近い音声分析/合成を行う方法をもたら
すことで効果がある。
第1図は本発明に係かる音声分析/合成の一実施例を示
すフローチャート図、tJ42図は音声波形例な示す図
、第3図(al (bl (C)(d)は本発明の効果
を確認するための実験を示す図である。 特許出願人 東洋通信機株式会社 篤 1 図
すフローチャート図、tJ42図は音声波形例な示す図
、第3図(al (bl (C)(d)は本発明の効果
を確認するための実験を示す図である。 特許出願人 東洋通信機株式会社 篤 1 図
Claims (2)
- (1)音声の短時間区間から音声の特徴を表わす圧縮さ
れた信号を抽出する手段に於いて前記短時間区間を前記
音声の1ピッチ長とすると共に、窓関数値の最大部分に
前記音声の特徴を最も良く表わした波形部分が位置する
よう前記短時間区間を設定したことを特徴とする音声分
析方式。 - (2)前記窓関数がハミング窓或はブラックマン窓の如
く中央に最大関数値をもつものである場合に於いて、音
声波形のピークが前記短時間区間のスタート時点から該
区間の1/4長後方付近に位置するよう設定したことを
特徴とする特許請求の範囲第1項記載の音声分析方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62055892A JP2654643B2 (ja) | 1987-03-11 | 1987-03-11 | 音声分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62055892A JP2654643B2 (ja) | 1987-03-11 | 1987-03-11 | 音声分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63221399A true JPS63221399A (ja) | 1988-09-14 |
JP2654643B2 JP2654643B2 (ja) | 1997-09-17 |
Family
ID=13011766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62055892A Expired - Lifetime JP2654643B2 (ja) | 1987-03-11 | 1987-03-11 | 音声分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2654643B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272070A (ja) * | 1988-09-06 | 1990-03-12 | Idemitsu Petrochem Co Ltd | 簡易ピール容器 |
JP2009175693A (ja) * | 2007-11-05 | 2009-08-06 | Huawei Technologies Co Ltd | 減衰率を取得する方法および装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6219900A (ja) * | 1985-07-19 | 1987-01-28 | 富士通株式会社 | ピツチ同期分析方式 |
-
1987
- 1987-03-11 JP JP62055892A patent/JP2654643B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6219900A (ja) * | 1985-07-19 | 1987-01-28 | 富士通株式会社 | ピツチ同期分析方式 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272070A (ja) * | 1988-09-06 | 1990-03-12 | Idemitsu Petrochem Co Ltd | 簡易ピール容器 |
JP2009175693A (ja) * | 2007-11-05 | 2009-08-06 | Huawei Technologies Co Ltd | 減衰率を取得する方法および装置 |
JP2010176142A (ja) * | 2007-11-05 | 2010-08-12 | Huawei Technologies Co Ltd | 減衰率を取得する方法および装置 |
US8320265B2 (en) | 2007-11-05 | 2012-11-27 | Huawei Technologies Co., Ltd. | Method and apparatus for obtaining an attenuation factor |
Also Published As
Publication number | Publication date |
---|---|
JP2654643B2 (ja) | 1997-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6232540B1 (en) | Time-scale modification method and apparatus for rhythm source signals | |
AU719955B2 (en) | Non-uniform time scale modification of recorded audio | |
EP1422693B1 (en) | Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program | |
JP2002014689A (ja) | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 | |
JP3511360B2 (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JPS63221399A (ja) | 音声分析方法 | |
JP2612867B2 (ja) | 音声ピッチ変換方法 | |
JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JPS5821797A (ja) | 音声合成用基本周期波形生成法 | |
JPS62296198A (ja) | 音声合成方式 | |
JP2886879B2 (ja) | 音声認識方法 | |
Bae et al. | On a cepstral technique for pitch control in the high quality text-to-speech type system | |
JPS6265098A (ja) | 音楽用ボコ−ダ | |
JP2008262140A (ja) | 音程変換装置及び音程変換方法 | |
Huang et al. | High level emotional speech morphing using straight | |
JPS59195297A (ja) | 音声認識装置 | |
KR19990079718A (ko) | 다중 대역 자극 알고리즘을 이용한 음성 신호 재생 방법 | |
JPS59125797A (ja) | 音声合成装置 | |
JPS58162999A (ja) | 音声合成用駆動波抽出方法 | |
JPS6142697A (ja) | 音声分析方式 | |
Lavington | Measurement systems for automatic speech recognition | |
JPS5965897A (ja) | 残差信号符号化方法 | |
JPH0731506B2 (ja) | 音声認識方法 | |
JPH07104675B2 (ja) | 音声認識方法 |