WO1998049673A1

WO1998049673A1 - Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif

Info

Publication number: WO1998049673A1
Application number: PCT/JP1998/001984
Authority: WO
Inventors: Atsushi Imai; Nobumasa Seiyama; Tohru Takagi
Original assignee: Nippon Hoso Kyokai
Priority date: 1997-04-30
Filing date: 1998-04-30
Publication date: 1998-11-05
Also published as: NO986172L; CN1441403A; CN1198263C; EP1944753A2; CA2258908C; KR20000022351A; EP0944036A4; EP1517299A3; US20010010037A1; CN1225737A; CA2258908A1; EP1944753A3; EP1517299A2; EP0944036A1; US6374213B2; NO986172D0; US6236970B1; NO317600B1; KR100302370B1; CN1117343C

Description

明細書音声区間検出方法及びその装置、並びにその方法及び装置を利用した話速変換方法及びその装置技術分野

本発明は、テレビジョン、ラジオ、テープレコーダ、ビデオテープレコーダ、ビデオディスクプレーヤ、補聴器などの映像機器、音響機器、医療機器などにおいて、時間を伸張させることなく、話速変換に期待される聞き易さを実現する話速変換方法及びその装置に関する。

また、本発明は、放送番組中や録音テープあるいは日常生活で、雑音や背景音を伴って発声された音声を加工して声の高さや話す速さを変えたり、意味内容を機械的に認識したり、符号化して伝送あるいは記 .録する場合などに、入力信号中の音声区間と、非音声区間とを判別する音声区間検出方法及びその装置に関する。

[発明の概要 ]

本発明は、人が発声した音声を加工してリアルタイムで発話速度を変換する話速変換方法及びその装置に関するものであって、受聴音声の発声する速さ（話速）を遅くする際に、入力音声のデータ長と、事前に与えられた伸縮倍率に関する変換関数によって予め計算された出力データ長と、実際に出力されている音声のデータ長とを一定の処理単位で常に監視しながら、情報の欠落を生じることなく、一連の処理を行なうものである。

さらに、この話速変換方法及びその装置においては、例えばテレビの視聴に使用する際、音声を伸張することによる映像と音声との時間差を最小限にすることを目的として、口占換に期待される遅さの度合い（変換倍率 ) に応じて設定される可変のしさい値以上の長さを有する非音声区間を適宜、短縮 'し、かつ入力デ一夕長に対する出力データ長の時間差の程度によって；応的に変換倍率を変化させることにより、変換音声の発話時間を原立声の発話時間にほぼ保ちつつ、決められた時間枠の中で実現し ½ る琼大のゅつくり感を自動的に生成するものである。

加えて、本発明は、入力信号データに対し、所定の時間間隔毎に、所定の時間幅を有するフレーム単位で、そのパヮ一を算出し、過去の所定の時間内におけるパワーの最大値と、最小値とを保持するとともに、その最大値並びに最大値と最小値との差に応じて変化するパワーにするしきい値を用いて、入力信号中の音声と背景音とのそれぞれのパワーの変化に逐次、適応しながら、フレム毎に音声区間と、非音声区間との判別を行なうことより、入力信号中の音声区間を正確に検出して、放送組中や録音テープあるいは日常生活で、雑音や背景音を伴って発声された音声を加工して声の高さや話す速さを変えたり、意味内容を機械的に認識したり、符号化して伝 ¾あるいは記録する場合などに、加工音声の音質の向上、音声認識率の改善、符号化効率の上昇や復号化音声の品質向上などを図る。

さらに、パワーとレう比較的、簡便に求められる特徴量のみを用いることにより、演算時間を短くするとともに、コストを低減させ、リアルタイムに音声処理を行なうことを可能にする。背景技術

話速変換手法を実際の放送に適用する場合、緊急報道など、原音声からの遅れが問題になる場合がある。特に、映像を伴うメディアについては、この遅れが話速変換に期待される効果とは逆に、悪影響を及ぼす可能性がある。

そこで、原音声から遅れることなく、話速変換効果 (ゆっくり感）を実現する手法として、一様にゆっくり変換するのではなく、一息で行なう発声の開始点から終了点に向かう経過時間の関数として、話速をゆっくりカゝら速くに変化させることで伸張を抑制し、文章間の非音声区間を適宜、短縮する方法（池沢龍ほか、平成 4 年日本音響学会春期研究発表会「話速変換に伴う時間伸張を吸収するための一手法」 2 — 6 — 2 、 p p . 3 3 1 〜 3 3 2 ) や、この手法をリアルタイム処理化する方法（今井篤ほか、平成 7 年電子情報通信学会総合大会講演論文集「話速変換に伴う時間伸張のリアルタイム吸収法」 D — 6 9 4 、 p p . 3 0 0 ) などが報告されている。

前者は、全ての発話様式が既知として上で、適当な関数を手動で設定するものであり、後者も倍率を与える関数を手動で規定し、一度設定した後は、これを固定するものである。

一方、非音声区間の短縮も、一定の残存時間のみを手動で規定するものであり、仮に「ずれ」が多く積算された場合には、バッファに蓄積された伸張分の音声を手動でクリアするものであった。

このため、従来の話速変換装置では、放送音声の発話形態（話速や「間」のとり方など）が発話者によって様々であり、人手によって、それぞれに適したパラメ一夕を設定しなければならないことから、操作箇所が多いととももに、設定自体が難しく、一般のユーザが取り扱うのに難し過ぎるとレう問題があった。

加えて、上述の話速変換装置においては、音声区間と、非音声区間とを区別して認識することが必要であるが、従来の音声区間検出方式には種々の方式がある。

従来の音声区間検出方式の 1 つとして、音声信号のパヮーなどを基に、雑音レベル、音声レベルなどを算出し、この算出結果に基づいてレベルしきい値を設定し、このレベルしきい値と、入力信号とを比較して、入力信号のレベルが大である場合に、これを音声区間と判定し、また小である場合に、これを非音声区間と判定する方式力知られている。

この方式で用いるレベルしきい値を設定する方法としては、代表的な第 1 〜第 3 の方式があり、第 1 の方式で P 一 5一

は、音声入力時の雑音レベル値に、予め定められている定数を加算した値をレベルしきい値とする。またこれを改良した第 2 の方式では、入力音声信号レベル最大値から雑音レベル値を減算した値が大であるときには、比較的大きい値に前記レベルしきい値を設定し、小であるときには、比較的小さい値に前記レベルしきい値を設定する（例えば、特開昭 5 8 — 1 3 0 3 9 5 号公報、特開昭 6 1 — 2 7 2 7 9 6 号公報など）。

また、第 3 の方式では、これらの各レベルしきい値の設定方法に加え、入力信号を連続的に観測し、そのレべルが一定の時間以上にわたって定常なとき、これを雑音レベルと見なし、逐次、雑音レベルを更新しながら、音声区間検出のためのしきい値を設定する（平成 7 年、電子情報通信学会総合大会講演論文集 D - 6 9 5 、 3 0 1 頁）。

しかしながら、上述した従来の音声区間検出方式においては、次に述べるような問題があった。

まず、第 1 の方式は、簡便であるという利点を持ち、音声の平均的なレベルが中程度の場合には、うまく機能するものの、音声の平均的なレベルが大き過ぎる場合には、雑音などを音声として誤検出し易く、また小さ過ぎる場合には、音声の一部が欠落して検出され易いという問題があった。

また、第 2 の方式は、このような第 1 の方式の問題を解決することができるものの、入力信号中の雑音や背景音のレベルがほぼ一定であることを前提にしていることから、音声のレベル変動に対しては、これに追随するが、雑音や背景音のレベルが時々刻々、変化した場合には、正確な音声区間の検出が保証されていないという問題がめった。

また、第 3 の方式では、このような雑音レベルの変動を考慮していることから、雑音レベルが逐次、変化しても、誤検出が発生しない。

しかしながら、放送番組などでは、雑音のみならず、効果音として、音楽や擬音などの背景音が存在し、それらのレベルが時々刻々、変動するのが一般的であり、しかもこれと同時に音声が常に発せられ続け、入力信号レベルが一定時間以上にわたって定常になることが殆ど無レこともあり、このような場合には、第 3 の方式でも、雑音レベルを正しく設定することができず、音声区間を正確に検出することが難しレゝという問題があった。

本発明は上記の事情に鑑み、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得ることができる話速変換方法及びその装置を提供することを目的としている。

また、パワーという比較的、簡便に求められる特徴量のみを用いることにより、演算時間を短くするとともに、コストを低減させながら、入力音声と、背景音とをそれぞれのレベルの変化に逐次、適応して、リアルタイムで音声処理を行なって、音声区間と、非音声区間とを判別することができる音声区間検出方法及びその装置を提供することを目的としてレる。発明の開示

上記の目的を達成するために、請求の範囲第 1 項に記載の音声区間検出方法では、入力された信号データに対して、所定の時間間隔毎に、所定のフレーム幅でフレームノ、。ヮーを算出するとともに、過去の所定の時間内のフレームパワーの最大値及び最小値を保持し、保持されている最大値、並びに最大値と最小値との差に応じて変化するノ、。ヮ一に関するしきい値を決定し、このしきい値と、現在のフレームのノ \° ヮ一とを比較して、現在のフレームが音声区間か、非音声区間かを決定することを特徴としている。

上記の構成により、請求の範囲第 1 項に記載の音声区間検出方法では、入力された信号データに対して、所定の時間間隔毎に、所定のフレーム幅でフレームノ\° ヮーを算出し、過去の所定の時間内のフレームパワーの最大値及び最小値を保持し、保持されている最大値、並びに最大値と最小値との差に応じて変化するパワーに関するしきい値を決定し、このしきい値と、現在のフレームのパヮ一とを比較して、現在のフレームが音声区間か、非音声区間かを決定することにより、入力音声と、背景音とをそれぞれのレベルの変化に逐次、適応しながら、リアルタイムで音声処理を行なって、音声区間と、非音声区間とを判別する。

請求の範囲第 2 項に記載の音声区間検出方法では、第 1 項に記載の音声区間検出方法において、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴とする。

また、上記の目的を達成するために、請求の範囲第 3 項に記載の音声区間検出装置では、入力された信号デー夕に対して、所定の時間間隔毎に、所定のフレーム幅でフレームパヮ一を算出するパワー算出部と、過去の所定の時間内のフレームパワーの最大値を保持する瞬時パヮ一最大値保持部と、過去の所定の時間内のフレームパヮ一の最小値を保持する瞬時パワー最小値保持部と、これら瞬時パワー最大値保持部、瞬時パワー最小値保持部に保持されている最大値、並びに最大値と最小値との差の両者に応じて変化するパワーに関するしきい値を決定するパワーしきい値決定部と、このパワーしきい値決定部によって得られたしきい値と現在のフレームのノ \° ヮ一とを比較して、音声区間か、非音声区間かを決定する判定部とを備えたことを特徴としている。

上記構成により、請求の範囲第 3 項に記載の音声区間検出装置では、パワー算出部によって、所定の時間間隔毎に、所定の時間幅を有するフレーム単位で入力された信号データを処理して、そのパワーを算出するとともに、瞬時パワー最大値保持部及び瞬時パワー最小値保持部によって、過去の所定の時間内におけるパワーの最大値と最小値とを保持しながら、ノ、ヮ一しきい値決定部によつて、最大値、なよびに最大値と最小値との差に応じて逐次、変化するパワーに関するしきい値を決定し、判別部によって、前記しきい値に基づき、前記入力信号データをフレーム単位で、音声区間と、非音声区間とに区分することにより、パワーという比較的、簡便に求められる特徴量のみを用いて、演算時間を短くするとともに、コストを低減させながら、入力音声と、背景音とをそれぞれのレベルの変化に逐次、適応して、リアルタイムで音声処理を行なって、音声区間と、非音声区間とを判別する。

請求の範囲第 4 項に記載の音声区間検出装置では、第 3 項に記載の音声区間検出装置において、前記パワーしきい値決定部は、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴とする。

また、上記の目的を達成するために、請求の範囲第 5 項に記載の話速変換方法では、時間的に変化する任意の比率で、入力データを伸張合成して得られた出力データについて、ある非音声区間が出現し、この非音声区間の継続時間が所定のしきい値を越えているとき、この入力データに対する出力データの伸張時間を、この伸張時間内の任意の時間だけ削減することを特徴としている。

上記の構成において、請求の範囲第 5 項に記載の話速変換方法では、時間的に変化する任意の比率で、入力デ一夕を伸張合成して得られた出力データについて、ある非音声区間が出現し、この非音声区間の継続時間が所定のしきい値を越えているとき、この入力データに対する出力データの伸張時間を、この伸張時間内の任意の時間だけ削減することにより、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得る。

請求の範囲第 6 項に記載の話速変換方法では、第 5 項に記載の話速変換方法において、入力データの伸縮合成する際、入力データ長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標データ長と、実.際の出力データ長との関係が矛盾しないように、逐次監視しながら、合成処理を行ない、時間的に変化する任意の伸縮合成比率に対し、音声部分に関して、情報の欠落が生じないようにするとともに、話速変換に伴う伸張に対する正確な時間情報を保持させることを特徴としている。

上記の構成において、請求の範囲第 6 項に記載の話速変換方法では、入力データを伸縮合成する際、入力デ一夕長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標デ一夕長と、実際の出力データ長との関係が矛盾しないように、逐次監視しながら、合成処理を行ない、時間的に変化する任意の伸縮合成比率に対し、音声部分に関して、情報の欠落が生じないようにするとともに、話速変換に伴う伸張に対する正確な時間情報を保持させることにより、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果果を安定して得る

求の範囲第 7 項に記載の話速変換方法では、第 5 項に記載の話速変換方法において、話速変換に伴う入力デ夕長からの伸張分を解消する際、一定継続時間以上の非立声区間の一部を削除して、話速変換倍率、伸張量などに応じて、非音声区間の残存割合を適応的に変化させるとを特徴としている。

上記の構成において、請求の範囲第 7 項に記載の話速変換方法では、話速変換に伴う入力データ長からの伸張分を解消する際、一定継続時間以上の非音声区間の一部を削除して、話速変換倍率、伸張量などに応じて、非音声区間の残存割合を適応的に変化させることにより、ュ

―ザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得る。求の範囲第 8 項に記載の話速変換方法では、第 5 項に記の話速変換方法において、限られた時間枠の中で話速換を行なう際、入力データ長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標データ長と実際の出力データ長との関係が矛盾しないように、逐次監視しながら、予め設定されている時間間隔で伸張量を測定しの測定結果に基づき、時間差が少ないときには、速変換倍率を一時的に上昇させ、また時間差が多いとには、話速変換倍率を一時的に下降させることにより応的に話速変換倍率を変化させることを特徴としている。

上記の構成において、請求の範囲第 8 項に記載の話速変換方法では、限られた時間枠の中で、話速変換を行なう際入力デ一夕長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標デ一夕長と、実際の出力デ ― 夕との関係が矛盾しないように、逐次監視しな力 S ら予め定されている時間間隔で伸張量を測定し、この測定結に基づき、時間差が少ないときには、話速変換倍率を時的に上昇させ、また時間差が多いとさには、話速変換倍率を一時的に下降させるしにり、適応的に話速換倍率を変化させることにより、ュ一ザが数段階の目となる変換倍率を一度だけ設定操作するだけで、された条件に応じて π舌 ^換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、 s 換に期待される効果を安定して得る。請求の範囲第 9 項に記載の話速変換方法では、第 5 項に記載の話速変換方法において、音声区間と非音声区間を識別する際に、入力された信号データに対して、所定の時間間隔毎に、所定のフレーム幅でフレームパワーを算出するとともに、過去の所定の時間内のフレームノ° ヮ一の最大値及び最小値を保持し、保持されている最大値並びに最大値と最小値との差に応じて変化するパワーに関するしきい値を決定し、このしきい値と、現在のフレ一ムのパヮ一とを比較して、現在のフレームが音声区間か、非音声区間かを決定することを特徴としている。

請求の範囲第 1 0 項に記載の話速変換方法では、第 9 項に記載の話速変換方法において、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴としている。

また、上記の目的を達成するために、請求の範囲第 1 1 項に記載の話速変換装置では、入力データを各ブロックに分割してブロックデ一夕を生成するとともに、各ブロックデ一夕に基づき、接続データを生成する分割処理 Z接続デ一夕生成手段と、入力された所望話速に基づき前記分割処理 Z接続データ生成手段によって生成された各ブロックデータ、各接続データの接続順序を決めて、これらを接続し、出力データを生成する接続処理手段とを備え、前記接続処理手段は、時間的に変化する任意の比率で、各ブロックデータを伸張合成して得られた出力デ一夕中に非音声区間が出現し、この非音声区間の継続時間が所定のしきい値を越えてレるとき、このブロック *一タに対する出力データの伸張時間を、この伸張時間内の任意の時間だけ削減することを特徴としている。

上記の構成において、請求の範囲第 1 1 項に記載の話変換装置では、入力データを各ブロックに分割してブ

□ ックデ一夕を生成するとともに、各ブロックデータにづき、接続データを生成する分割処理 /接続データ生成手段と、入力された所望話速に基づき、前記分割処理接データ生成手段によって生成された各ブロックデ夕、各接続データの接続順序を決めて、これらを接続し、出力データを生成する接続処理手段とを有する話速換装置において、前記接続処理手段によつて、時間的に変化する任意の比率で、各ブロックデータを伸張合成して得られた出力データ中に非音声区間が出現し、この非音声区間の継続時間が所定のしきい値を越えているとのブロックデータに対する出力デ一夕の伸張時間を、この伸張時間内の任意の時間だけ削減するしとにより、ュ一ザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得る請求の範囲第 1 2 項に記載の話速変換装置では、第 1

1 項に記載の話速変換装置において、前記接続処理手段は、入力データの伸縮合成する際、入力デー夕長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標デ一夕長と、実際の出力データ長との関係が矛盾しないように逐次監視しながら、合成処理を行ない、時間的に変化する任意の伸縮合成比率に対し、音声部分に関して、情報の欠落が生じないようにするとともに、話速変換に伴う伸張に対する正確な時間情報を保持させることを特徴としている。

上記の構成において、請求の範囲第 1 2 項に記載の話速変換装置では、前記接続処理手段によって、入力デー夕の伸縮合成する際、入力データ長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力データ長との関係が矛盾しないように、逐次監視しながら、合成処理を行ない、時間的に変化する任意の伸縮合成比率に対し、音声部分に関して、情報の欠落が生じないようにするとともに、話速変換に伴う伸張に対する正確な時間情報を保持させることにより、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得る。

請求の範囲第 1 3 項に記載の話速変換装置では、第 1 1 項に記載の話速変換装置において、前記接続処理手段は、話速変換に伴う入力データ長からの伸張分を解消する際、一定継続時間以上の非音声区間の一部を削除して、話速変換倍率、伸張量などに応じて、非音声区間の残存合を適応的変化させることを特徴としている

上記の構成おいて、請求の範囲第 1 3 項に記載の話変換装置で、前記接続処理手段によつて、話速変換非話一はにるど

に伴う入力デ夕長からの伸張分を解消する際、一定継時間以上の音声区間の一部を削除して、話速変換倍、伸張量なに応じて、非音声区間の残存割合を適ゝ的に変化させことにより、ユーザが数段階の目安となる変換倍率を度だけ設定操作するだけで、 e Λ£ された条件に応じて速変換倍率や非音声区間を適応的に制御しし、実際に発された時間枠の中で、話速変換に期待される効果を安定して得る。

請求の範囲 1 4 項に記載の話速変換装置では、第 1

1 項に記載の速変換装置において、前記接続処理手段は、限られた時間枠の中で、話速変換を行なう際、入力テ一夕長と、の入力データ長に任意の伸縮倍率を乗じて算出される標デ一夕長と、実際の出力データ長との係が矛盾しないように、逐次監視しながら、予め設定されている時間間隔で伸張量を測定し、この測定結果に基づき、時間が少ないときには、話速変換倍率

的に上昇させまた時間差が多いときには、話速変換倍率を一時的に下降させることにより、適応的に話速変換倍率を変化させることを特徴としている。

上記の構成において、請求の範囲第 1 4 項に記載の話速変換装置では、前記接続処理手段によつて、限られた時間枠の中で話速変換を行なう際、入力データ長と、この入力デ一夕長に任意の伸縮倍率を乗じて算出される目標デ一夕長と、実際の出力データ長との関係が矛盾しないように、逐次監視しながら、予め設定されている時間間隔で伸張量を測定し、この測定結果に基づき、時間差が少ないときには、話速変換倍率を一時的に上昇させ、また時間差が多いときには、話速変換倍率を一時的に下降させることにより、適応的に話速変換倍率を変化させることにより、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得る。

請求の範囲第 1 5 項に記載の話速変換装置では、第 1 1 項に記載の話速変換装置において、前記入力データに対して、所定の時間間隔毎に、所定のフレーム幅でフレ一ムパヮ一を算出するとともに、過去の所定の時間内のフレームパワーの最大値及び最小値を保持し、保持されている最大値、並びに最大値と最小値との差に応じて変ィ匕するパワーに関するしきい値を決定し、このしきい値と、現在のフレームのパワーとを比較して、現在のフレームが音声区間か、非音声区間かを決定する分析処理手段を更に備えることを特徴としている。

請求の範囲第 1 6 項に記載の話速変換装置では、第 1 5 項に記載の話速変換装置において、前記分析処理手段は、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴としてレゝる。図面の簡単な説明

図 1 は、本発明の話速変換装置の一実施形態を示すブロック図である。

図 2 は、本発明の音声区間検出装置の一実施形態を示すブロック図である。

図 3 は、図 2 に示す音声区間検出装置の動作例を示す模式図である。

図 4 は、図 1 に示す接続デ一夕生成部における、同一ブロックを繰り返して接続する際に用いる接続データの生成方法を示す模式図である。

図 5 は、図 1 に示す接続順序生成部における入出力デ一夕長監視比較部の詳細な構成例を示すブロック図である。

図 6 は、図 1 に示す接続順序生成部で生成される接続順序の一例を示す模式図である。発明を実施するための最良の形態

以下、図面に基づいて本発明を詳細に説明する。

この図に示す話速変換装置は、端子 1 と、 A Z D 変換部 2 と、分析処理部 3 と、ブロックデー夕分割部 4 と、ブロックデータ蓄積部 5 と、接続デ一夕生成部 6 と、接続データ蓄積部 7 と、接続順序生成部 8 と、音 F> 夕接続部 9 と、 D / A変換部 1 0 と、端子 1 1 とを備えており、発話者からの入力音声データに対して、音声デー夕の属性に基づく分析処理を施し、当該分析 I冃報に応じて所望の関数を使用して、話速変換音声一 -' を合成する際、入力音声データのデータ長（入力データ長）と、これに任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力音声デ一夕のデータ長（出力デ一夕長）とを比較しながら、矛盾がないように、これらの処理を行なうことにより、伸張 · 伸縮倍率の変化に対しても、音声情報の欠落が生じることが無く、また時々刻々、変化する原音声と、変換音声との時間差を監視する。そして、時間差が少ない場合には、話速変換倍率を一時的に上昇させ、また逆に多い場合には、話速変換倍率を一時的に下降させなど、適応的に倍率を変化させ、さらに話速変換倍率や伸張量などに基づいて、非音声区間の残存割合を適応的に変化させて、話速変換に伴う原音声からの時間差を適応的に解消する。

A Z D 変換部 2 では、所定のサンプリングレート（例えば、 3 2 k H z ) で、端子 1 に入力された音声信号、例えばマイクロホンやテレヒジョン、ラジォ、その他の映像機器、音響機器のアナログ音声出力端子から出力される音声信号を A Z D 変換するとともに、これによつて得られた音声データを F I F 〇メモリにノッファリングしながら、過不足なく、後続の分析処理部 3 と、ブロックデータ分析部 4 とに供給する。

分析処理部 3 では、 A Z D 変換部 2 から出力される音声データを分析して、音声区間及び非音声区間を抽出するとともに、これらの区間に基づいて、ブロックデータ分割部 4 において行われる音声データの分割処理で必要な各ブロック時間長を決定する分割情報を生成し、これをブロックデータ分割部 4 に供給する。

ここで、本発明の音声区間検出方法及びその装置における一実施形態を説明する。

本発明による音声区間検出方法及びその装置では、入力信号のパワーを指標とした場合、入力信号中の音声のレベル変動に関しては、直前までに入力されたパワーの最大値に反映され、背景音のレベル変動に関しては、直前までに入力されたパワーの最小値に反映されていることに着目して、音声 /非音声判別のしきい値を決定する際、雑音が殆ど存在しないとき、直前までに入力されたパワーの最大値から所定の値だけ減算した値を基本のしきい値とし、直前までに入力されたパワーの最大値から最小値を差し引いた値が小さくなるにつれて（ S N が小さくなるにつれて）、しきい値を大きくしてレゝくように、補正を力 Dえるという処理で、しきい値を決定する。

そして、入力音声データに対し、所定の時間間隔毎に、所定の時間幅を有するフレーム単位で、そのパワーを算出し、過去の所定の時間内におけるパワーの最大値と、小値とを保持しながら、最大値、並びに最大値と最小との差に応じて変化するパワーに関するしきい値を用いて、入力音声、背景音、それぞれのパワーの変化に逐次適応しながら、フレーム毎に音声区間と、非音声区とを判別する。

以下、図面に基づいて具体的に説明する。

2 は、音声区間検出装置の一例を示すブロック図である

の図に示す音声区間検出装置 1 は、デジ夕ル化されて入力された入力信号デー夕に対して所定の時間間隔毎に所定のフレーム幅でパヮーを算出するパヮー算出部 2 と過去の所定の時間内のフレームパワーの最大値を保持する瞬時パヮ一最大値保持部 3 と、過去の所定の時間内のフレームパヮ一の最小値を保持する瞬時パヮ ―最小値保持部 4 と、これら瞬時ヮ一最大値保持部 3 、瞬時パヮ一最小値保持部 4 に保持されている最大値、並びに大値と最小値との差の両者に応じて変化するパヮ一にするしさい値を決定するパヮ一しきい値決定部 5 と、のパヮ一しさい値決定部 5 によつて決定されたしさい値と現在のフレームの八 ° ヮ一とを比較して音声区間か、非声区間かを決定する判別部 6 とを備えている

そして、この音声区間検出装置 1 では、入力信亍— 夕対し、所定の時間間隔毎に所定の時間幅を有するフレム単位でそのパワーを算出し、過去の所定の時間内におけるパワーの最大値と最小値とを保持しながら、最大値、並びに最大値と最小値との差に応じて変化するパヮ一に関するしきい値を用いて、入力音声と背景音のそれぞれのパワーの変化に逐次適応しながら、フレーム毎に音声区間と、非音声区間との判別を行なう。

パワー算出部 2 では、例えば 5 m s の時間間隔で、例えば 2 0 m s のフレーム幅にわたり、信号の自乗和ないし自乗平均値を算出し、これを対数化、即ちデシベル化して、その時刻のフレームパワーを " P " とし、これを瞬時パワー最大値保持部 3 と、瞬時パワー最小値保持部 4 と、判別部 6 とに供給する。

瞬時パワー最大値保持部 3 では、過去の所定の時間内 (例えば、 6 秒）のフレームノ \° ヮ一 " P " の最大値を保持するように設計されており、常にその保持した値 " P upper" をパワーしきい値決定部 5 に供給する。但し、最大値 " P upper" は " P 〉 P upper" であるような、フレームパワー " P " がパワー算出部 2 から供給されると、直ちにその値が更新される。

また、瞬時パワー最小値保持部 4 では、過去の所定の時間内（例えば、 4 秒）のフレームノ、。ヮ一 " P " の最小値を保持するように設計されており、常にその保持した値 " P lower" をノ ^ ヮ一しきい値決定部 5 に供給する。但し、最小値 " P lower" は " P < P lower" であるような、フレ一ムパワー " P " がパワー算出部 2 力ゝら供給されると、直ちにその値が更新される。パワーしきい値決定部 5 では、瞬時パワー最大値保持部 3 及び瞬時パワー最小値保持部 4 に保持されている最大値 " P upper" と、最小値 " P lower" とを用いて、例えば、次式に示す演算を行なってパワーに関するしきい値 " P thr" を決定し、これを判別部 6 に供給する。

P upper- P lower≥ 6 0 [ d B ] の場合：

P thr = P upper - 3 5 … （ 1 )

P upper- P lower< 6 0 [ d B ] の場合：

P thr = P upper - 3 5 + 3 5 X { 1 - ( P upper — P lower) / 6 0 } … （ 2 ) 但し、背景音のレベルが音声のレベルに近接してきた場合の本発明装置の誤動作を防ぐために、 P thr は、 P thr= P upper - 1 3 を上限とするのが望ましい。また、上式中の定数 3 5 は、前述の雑音が殆ど存在しないときの基本のしきい値である。

また、判定部 6 では、パワー算出部 2 からフレーム毎に供給されるノ° ヮ一 " P " と、パワーしきい値決定部 5 力ら供給されるしきい値 " P thr" とを比較して、フレーム毎に、 " P > P thr" ならば、当該フレームを音声区間と判定し、また " P P thr" ならば、当該フレームを非音声区間と判定し、これらの各判定結果に基づき音声 Z非音声の判別信号を出力する。

これによつて、図 3 に示すように、入力信号データの値が変化しているとき、パワー算出部 2 から出力されるパワー " P " に基づき、瞬時パヮ一最大値保持部 3 と、瞬時パワー最小値保持部 4 とに各々、最大値 " P upper" と、最小値 " P lower" とが保持されるとともに、これら最大値 " P u er" と、最小値 " P lower" とに基づいて、しきレゝ値 " P thr" が決定され、このしきい値 " P thr" に基づき、各フレームが音声区間、非音声区間のいずれであるか判定される。

このように、この実施の形態では、入力信号デ一夕に対し、所定の時間間隔毎に所定の時間幅を有するフレーム単位でそのパワーを算出し、過去の所定の時間内におけるパワーの最大値と最小値とを保持しながら、最大値、なよびに最大値と最小値との差に応じて変化するパワーに関するしきい値を用いて、入力音声、背景音、それぞれのパワーの変化に逐次、適応しながら、フレーム毎に音声区間と、非音声区間との判別を行なうようにしているので、放送番組中や録音テープあるいは日常生活で、雑音や背景音を伴って発声された音声について、フレーム毎に、音声区間か、非音声区間かを正確に判別することができる。

また、この実施の形態では、過去の所定の時間内の瞬時パワーの最小値を基に、背景音のレベルを推定しているので、放送番組中などで、背景音のレベルが時々刻々、変動し、かつ同時に音声が発せられ続けている場合においても、入力信号中の音声区間と、非音声区間とを判別することができる。

この結果、入力信号中の音声に対して、 ( a ) 加工して声の高さや話す速さを変える、

( b ) 意味内容を機械的に音声認識する、

( c ) 符号化して伝送あるいは記録する、

場合などにおいて、加工音声の音質の向上、また音声認識率の改善、さらに符号化効率の上昇や、復号化音声の品質の向上が可能となる。

また、パワーという比較的簡便に求められる特徴量のみを用いているので、演算時間を短縮することができるとともに、装置全体の構成を簡素化して、コストを低減することができ、さらにリアルタイムに音声処理を行なうことが可能となる。

そして、本発明の話速変換方法においては、以下のように更に処理を続ける。

つまり、ゾ° ヮ一が所定のしきい値 P t h r以上の区間、すなわち音声区間については、声帯の振動を伴う音声である有声音か、声帯の振動を伴わない音声である無声音かの判定を行なう。これには、ノ° ヮ一の大きさだけでなく、ゼロ交差分析、自己相関分析などを併用する。

また、音声データを分析するために、各ブロックの時間長を決定するときには、音声区間（有声音区間、無声音区間）及び非音声区間毎に所定の自己相関分析を行なつて周期性を検出し、この周期性を基に、ブロック長を決定する。また、有声音区間については、声帯の振動周期であるピッチ周期を検出し、各ピッチ周期が各々のブロック長となるように分割を行なう。この際、有声音区間のピッチ周期が 1 . 2 5 m s 〜 2 8 . O m s 程度の広い範囲に分布しているため、長短異なる窓幅の自己相関分析を行なうなどして、できるだけ正確なピッチ周期を検出する。なお、有声音区間のブロック長として、ピッチ周期を用いたのは、ブロック単位の繰り返しに起因する声の高さの変化（低い声になる）を防止するためである。また、無声音区間、非音声区間については、 5 m s 以内の周斯性を検出して、ブロック長を検出する。

また、ブロックデ一夕分割部 4 では、分析処理部 3 で決定されたブロック長にしたがって、 A / D 変換部 2 から出力される音声データを分割し、この分割処理で得られたブロック単位の音声データと、そのブロック長とをブロックデータ蓄積部 5 に供給するとともに、分割処理で得られた各ブロック単位の音声データの両端部分、すなわち開始部分から所定の時間長（例えば、 2 m s 分）と、終了部分から所定の時間長（例えば、 2 m s 分）前の部分を接続データ生成部 6 に供給する。

また、ブロック蓄積部 5 では、リングバッファによつて、ブロックデ一夕分割部 4 から供給されたブロック単位の音声デ一夕、そのブロック長を一時的に格納し、必要に応じて一時記憶しているブロック単位の音声データを音声データ接続部 9 に供給するとともに、必要に応じて一時記憶しているブロック長を接続順序生成部 8 に供給する。

また、接続データ生成部 6 では、各ブロック毎に、図 4 に示すように、直前のブロックの終了部分、当該プロックの開始部分の音声、直後のブロックの開始部分の音声デ一夕に窓掛けを行なった後、直前のブロックの終了部分と、当該ブロックの終了部分の重複加算及び当該ブ □ ックの開始部分と直後のブロック開始部分の重複加算を行なうとともに、これらを連結して各ブロック毎に、接続データを生成し、これを接続データ蓄積部 7 に供給する

接続デ一夕蓄積部 7 では、リングバッファによって、接続データ生成部 6 カゝら供給された各ブ口ック毎の接続一》

つ夕を一 d ¾するととちに、必要に応じて一時記憶

、、

している接続デー夕を音尸ア一夕接続部 9 に供給する。

た、接続順序生成部 8 では、受聴者が設定した所望の話速を実現するために、ブ □ ック単位の音声データ及び接 Z ノー一夕の接続順序を生成する。この場合、受聴者力デジ夕リレボリュームなどをィン夕フエースとして、各属性 V ¾ 尸音区間、無尸音区間及び非音声区間）毎の時間的な伸張倍率を設定でさるの値は書き換え可能なメモリに格納されている。またこの値は、固定の伸張倍率として処理される方法 ( = 一様伸張モード ) と、この δ又疋倍率を目標にしつつ定時間以上ずれが積算しないように、各音声属性を総合的に、かつ適応的に制御することで、限られた時間枠で話速変換効果を実現する方法（ = 時間伸張吸収モー F ) とのいずれかを選択することによって提供される。の接続順序生成部 8 によれば、上記メモリに設定された伸張倍率に対して実際に音声合成を行なう際に、同時刻の入力音声デ— 夕長と出力音声データ長と、これから成しようとする音声デ一夕長の各時間関係をリァル夕ィムで把握することで、原音声の発話時刻と変換音声の出力時刻との時間差を常に監視することができ、この報をフィ ― ドバックすることで時間差を自動的に一定長以下に抑え込むことができる。また同時に、任意の夕ィミングで任意の値に変更される伸縮倍率に対して、その実行に時間的な矛盾（例えば、入力音声テ一タ長よりも出力音声データ長を短くするような要求など）がないか否かをチエックでき、合成時に音声情報の欠落を生ずるとを防止できる。

次に、この接続順序生成部 8 の処理を具体的に説明する任意の関数によって音声の伸縮倍率を設定する際、ブ □ ックァ一夕蓄積部 5 から供給される各ブロック長につき、ブロックデータ分割部 4 で規定された処理単位の音声デー夕長（ = 入力夕長）を逐次算出し、この入力デ一夕長に対し、受聴者によって設定された伸縮倍率を乗じたものを目標デ一夕長とする。音声データ接続部 9 では、この目檫 7 夕値と一致するように音声デー夕を接続するとともに、実際に出力された出力音声デー

—

夕の長さとなる音尸：? 夕長（ = 出カデ一夕長）を逐次順序生成部 8 にフィ一ドバックする

そして、図 5 に示すように、接続順序生成部 8 に設けられた入出力データ長監視比較部 2 0 によって生成される目標長を、接続順序情報として音声デ一夕接続部 9 に送る。入出力データ長監視比較部 2 0 は、入力データ長を監視する入力データ長監視部 2 1 と、この入力データ長監視部 2 1 で得られた入力デ一夕長と例えば受聴者

( あるいは、装置に内蔵された関数メモリ）によって与えられた値とに基づいて行われた話速倍率変換で生成される出力データの目標長（目標デ一夕長）を演算するとともに、この目標データ長を自動的に修正する出力目標長演算部 2 2 と、この出力目標長演算部 2 2 で得られた目標データ長と入力デ一夕長監視部 2 1 で得られた入力デ一夕長とを比較して、目標データ長が入力データ長より短いときは目標データ長を入力データ長に揃え、さらに、目標データ長が入力データ長以上のときは目標デー夕長をそのまま出力する比較部 2 3 と、音声データ接続部 9 から出力デ一夕に関する既接続情報を入力して出力データ長を監視する出力デ一夕長監視部 2 4 と、この出カデ一夕長監視部 2 4 で得られた出力データ長と比較部 2 3 で得られた目標データ長とを比較し、目標データ長が出力デ一夕長より短いときは目標データ長を出力デー夕長に揃え、さらに、目標デ一夕長が出力データ長以上のときは目標データ長をそのまま出力する比較部 2 5 と、で構成される。そして、次に述べるように、音声の属性毎に設定されたメモリの値を所定の時間間隔で読み出すとともに、読み出された属性毎の伸張倍率を実現するために、目標データ長を求めるととも、この目標データ長と、出力データ長監視部 2 4 で得られた出力データ長とに基づき、音声の伸縮情報を加味した接続情報を時々刻々、生成して、図 6 に示すように、各ブロック毎の音声データと、接続データとを接続させる。

まず、入力データ長と、目標データ長とを逐次比較し入力デ一夕長が目標デ一夕長以上と判定されたときには入力データ長に揃うように、目標データ長を修正し、また入力データ長が目標データ長未満であると判定されたときには、目標デ一夕長の変更を中止する。

次に、目標データ長と、実際の出力デ一夕長とを比較し、出力デ一夕長が目標デ一夕長以上と判定されたときには、出力デ一夕長に揃うように、目標データ長を修正し、また出力データ長が目標データ長未満と判定されたときには、目標データ長の変更を中止する。

これらの比較処理によって得られた目標データ長と合致するように、伸張情報や接続情報などを示す接続指令を生成して、これを音声データ接続部 9 に供給する。

次に、接続順序生成部 8 における話速変換倍率の制御条件について説明する。例えば、放送の時間枠など、限られた時間枠の中で、話速変換を行なうことを所望する場合においては、入力データ長と、出力データ長とを逐次監視し、予め任意に設定した時間間隔で、両デ一夕の時間差を測定することによって、遅延量が少ないときには、話速変換倍率を一時的に上昇させ、また逆に多いとさには、これを下降させる処理を行なうなど、適応的に倍率を変化させるような関数を設定すれば良い。

例えば、この実施の形態では、 2 0 0 m s 以上の非音声区間が出現した時点で、それ以降に出現する最初の有声音の開始時刻を " t = 0 " とし、 " 0 ≤ t ≤ T " の範囲に出現する各有声音の開始時刻に対応した倍率を与える関数として、以下の式のような余弦関数を用いることができる。

f ( t ) = r s + 0 . 5 ( e ) ( c o s π t

/ T + 1 . 0 ) ·· ( 3 ) 但し、 t ： 0 ≤ t ≤ T

r s ：受聴者による外部入力値（

r s ≤ 1 . 6 )

r e ：初期値として与えら，れる値 (例えば、 r e = 1 . 0 )

こで、入力デ一夕長と、出力デ一夕長との時間差をある一定の時間間隔、例えば 1 秒毎に計算し、そのときの時間差に応じて、初期値 r e を " 1 . 0 " から " 0 .

0 5 " づつ増加させたり、また逆に " 0 . 9 5 " 程度まで減少させる処理を行なう。ただし、期間 T を越えた時点で、まだ 2 0 0 m s 以上の非音声区間が出現しない場

A は、それ以降の有声音区間には、例えば 1 . 0 倍の倍率：遍用する。ここでは、ピッチやパヮ一などの変化量を匕 1

曰 Τ示にして新たな倍率を与えることもでさる。

た、非音声区間の残存割合についても、話速変換倍率や伸張量などを鑑みて適応的に変化させるようにするこれも関数として任意に設定できる。

た、外部入力値 r s に対応して非音声区間の短縮許容限 (最低、どれだけは削減せずに保存するかを示す値）を設定し、上述したような関数で表現しても良いが例えば次に述べるように、離散的に設定することもできる。

s = 1 . 0 のとさは、 3 0 0 m s まで削減可能 s = 1 . 1 のとさは、 2 5 0 m s まで削減可能 s = 1 . 2 のときは、 2 3 0 m S まで削減可能 r s = 1 . 3 のとさは、 2 0 0 m S まで削減可能 r s = 1 . 4 のとさは、 2 0 0 m S まで削減可能 r s = 1 . 5 のとさは、 1 5 0 m S まで削減可能

s = 1 . 6 のときは、 1 0 0 m S まで削減可能などに δ又疋しても良い

た、非音声区間の削減方式については、リングバッファ上の任意のァドレスにポインタを移動させることによつて実現する。この実施の形態では、当該非音声区間の直後の有声音の開始部分に移動することにより、音声

I冃の欠落を防止している。

た、音声データ接続部 9 では、接続順序生成部 8 で決定された接続順序にしたがつてブロックデータ蓄積部

5 からブロック単位の音声データを読み出し、指定されたブロックの音声デー夕を伸張させるとともに、接続デ

— 々蓄積部 7 から接続つ夕をも出しながら、 D A 変換部 1 0 に設けられた F I F O メモリに過不足が起こらないように、接続処理を抑制しながら、音声データと接続デ一夕とを接続して、出力音声データを生成し、これを D / A変換部 1 0 に供給する。

D Z A変換部 1 0 では、 F I F O メモリによって、音声データ接続部 9 から供給される出力音声データをバッファリングしながら、所定のサンプリングレート（例えば、 3 2 k H z ) で、出力音声デ一夕を D / A変換して、出力音声信号を生成し、これを端子 1 1 から出力する。

このように、この実施の形態では、発話者からの入力音声データに対して、音声データの属性に基づく分析処理を施し、当該分析情報に応じた所望の関数を使用して話速変換音声データを合成する際、入力デ一夕長と、これに任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力音声デ一夕長とを比較しながら、矛盾がないように、これらの処理を行なうようにしたので、伸張 · 伸縮倍率の変化に対しても、音声情報の欠落が生じないようにすることができる。また、時々刻々変化する原音声と、変換音声との時間差を監視し、時間差が少ない場合には、話速変換倍率を一時的に上昇させ、また逆に多い場合には、話速変換倍率を一時的に下降させるなど、適応的に倍率を変化させ、さらに話速変換倍率や伸張量などに基づいて、非音声区間の残存割合を適応的に変化させて、話速変換に伴う原音声からの時間差を適応的に解消するようにしているので、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得ることができる。

これによつて、話者が頻繁に入れ替わる放送番組などに対しても、自動的に各発話者に最適な話速変換効果を提供することができ、ごく簡単な操作で、早口が聞き取り難い高齢者や視聴障害者に対しても、リアルタイム性を有する緊急報道やテレビなどの映像付きのメディァの音声を時間遅れ無く、かつ安定してゆっくり聴取させることができる。

産業上の利用可能性

以上説明したように本発明の話速変換方法及びその装置によれば、ユーザが数段階の目安となる変換倍率を一度だけ設定操作するだけで、設定された条件に応じて話速変換倍率や非音声区間を適応的に制御し、実際に発話された時間枠の中で、話速変換に期待される効果を安定して得ることができる。

また、本発明の音声区間検出方法及びその装置によれば、パワーという比較的、簡便に求められる特徴量のみを用いることにより、演算時間を短くするとともに、コストを低減させながら、入力音声と、背景音とをそれぞれのレベルの変化に逐次、適応して、リアルタイムで音声処理を行なって、音声区間と、非音声区間とを判別することができる。

Claims

請求の範囲 1 . 入力された信号データに対して、所定の時間間隔毎に、所定のフレーム幅でフレームノヮ一を算出するとともに、過去の所定の時間内のフレームパワーの最大値及び最小値を保持し、

保持されている最大値、並びに最大値と最小値との差に応じて変ィヒするノ \° ヮ一に関するしきい値を決定し、このしきい値と、現在のフレームのパワーとを比較して、現在のフレームが音声区間か、非音声区間かを決定することを特徴とする音声区間検出方法。

2 . 請求項 1 に記載の音声区間検出方法において、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴とする音声区間検出方法。

3 . 入力された信号データに対して、所定の時間間隔毎に、所定のフレーム幅でフレームパワーを算出するパヮ一算出部（ 3 2 ) と、

過去の所定の時間内のフレームパワーの最大値を保持する瞬時パワー最大値保持部（ 3 3 ) と、

過去の所定の時間内のフレームパワーの最小値を保持する瞬時パワー最小値保持部（ 3 4 ) と、これら瞬時パワー最大値保持部、瞬時パワー最小値保持部に保持されている最大値、並びに最大値と最小値との差の両者に応じて変化するパワーに関するしきい値を決定するノ、。ヮ一しきい値決定部（ 3 5 ) と、

このノ° ヮ一しきい値決定部によって得られたしきい値と現在のフレームのパワーとを比較して、音声区間か、非音声区間かを決定する判定部（ 3 6 ) と、

を備えたことを特徴とする音声区間検出装置。

4 . 請求項 3 に記載の音声区間検出装置において、前記パワーしきい値決定部（ 3 5 ) は、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴とする音声区間検出方法。

5 . 時間的に変化する任意の比率で、入力データを伸張合成して得られた出力データについて、ある非音声区間が出現し、この非音声区間の継続時間が所定のしきい値を越えているとき、この入力デ一夕に対する出力デ一夕の伸張時間を、この伸張時間内の任意の時間だけ削減することを特徴とする話速変換方法。

6 . 請求項 5 に記載の話速変換方法において、

入力データの伸縮合成する際、入力データ長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力データ長との関係が矛盾しないように、逐次監視しながら、合成処理を行ない、

時間的に変化する任意の伸縮合成比率に対し、音声部分に関して、情報の欠落が生じないようにするとともに話速変換に伴う伸張に対する正確な時間情報を保持させることを特徴とする話速変換方法。

7 . 請求項 5 に記載の話速変換方法において、

話速変換に伴う入力データ長からの伸張分を解消する際、一定継続時間以上の非音声区間の一部を削除して、話速変換倍率、伸張量などに応じて、非音声区間の残存割合を適応的に変化させることを特徴とする話速変換方法。

8 . 請求項 5 に記載の話速変換方法において、

限られた時間枠の中で、話速変換を行なう際、入力デ一夕長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力データ長との関係が矛盾しないように、逐次監視しながら、予め設定されている時間間隔で伸張量を測定し、この測定結果に基づき、時間差が少ないときには、話速変換倍率を一時的に上昇させ、また時間差が多いときには、話速変換倍率を一時的に下降させることにより、適応的に話速変換倍率を変化させることを特徴とする話速変換方法。

9 . 請求項 5 に記載の話速変換方法において、音声区間と非音声区間を識別する際に、

入力された信号データに対して、所定の時間間隔毎に所定のフレーム幅でフレームパワーを算出するとともに過去の所定の時間内のフレームパワーの最大値及び最小値を保持し、

保持されている最大値、並びに最大値と最小値との差に応じて変化するゾヮ一に関するしきい値を決定し、このしきい値と、現在のフレームのノ \° ヮ一とを比較して、現在のフレームが音声区間か、非音声区間かを決定することを特徴とする話速変換方法。

1 0 . 請求項 9 に記載の話速変換方法において、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴とする話速変換方法。

1 1 . 入力デ一夕を各ブロックに分割してブロックデ一夕を生成するとともに、各ブロックデ一夕に基づき、接続データを生成する分割処理 Z接続データ生成手段と入力された所望話速に基づき、前記分割処理接続デ一夕生成手段によって生成された各ブロックデータ、各接続データの接続順序を決めて、これらを接続し、出力デ一夕を生成する接続処理手段とを備え、

この接続処理手段は、時間的に変化する任意の比率で各ブロックデ一夕を伸張合成して得られた出力デ一夕中に非音声区間が出現し、この非音声区間の継続時間が所定のしきい値を越えているときには、このブロックデ一夕に対する出力データの伸張時間を、この伸張時間内の任意の時間だけ削減することを特徴とする話速変換装置

1 2 . 請求項 1 1 に記載の話速変換装置において、前記接続処理手段は、入力データを伸縮合成する際、入力データ長と、この入力デ一夕長に任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力データ長との関係が矛盾しないように、逐次監視しながら合成処理を行ない、

時間的に変化する任意の伸縮合成比率に対し、音声部分に関して情報の欠落が生じないようにするとともに、話速変換に伴う伸張に対する正確な時間情報を保持させることを特徴とする話速変換装置。

1 3 . 請求項 1 1 に記載の話速変換装置において、前記接続処理手段は、話速変換に伴う入力データ長からの伸張分を解消する際、一定継続時間以上の非音声区間の一部を削除して、話速変換倍率、伸張量などに応じて、非音声区間の残存割合を適応的に変化させることを特徴とする話速変換装置。

1 4 . 請求項 1 1 に記載の話速変換装置において、前記接続処理手段は、限られた時間枠の中で、話速変換を行なう際、入力データ長と、この入力データ長に任意の伸縮倍率を乗じて算出される目標データ長と、実際の出力データ長との関係が矛盾しないように逐次監視しながら、予め設定されている時間間隔で伸張量を測定しこの測定結果に基づき、時間差が少ないときには、話速変換倍率を一時的に上昇させ、また時間差が多いときには、話速変換倍率を一時的に下降させることにより、適応的に話速変換倍率を変化させることを特徴とする話速変換装置。

1 5 . 請求項 1 1 に記載の話速変換装置において、前記入力データに対して、所定の時間間隔毎に、所定のフレーム幅でフレームパワーを算出するとともに、過去の所定の時間内のフレームパワーの最大値及び最小値を保持し、保持されている最大値、並びに最大値と最小値との差に応じて変化するパワーに関するしきい値を決定し、このしきい値と、現在のフレームのパワーとを比較して、現在のフレームが音声区間か、非音声区間かを決定する分析処理手段を更に備えることを特徴とする話速変換装置。

1 6 . 請求項 1 5 に記載の話速変換装置において、前記分析処理手段は、最大値と最小値との差が所定値未満の場合には、最大値と最小値との差が所定値以上の場合と比較して、前記しきい値を、最大値に近いように決定することを特徴とする話速変換装置。