WO2012102056A1

WO2012102056A1 - 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体

Info

Publication number: WO2012102056A1
Application number: PCT/JP2012/000537
Authority: WO
Inventors: 都木　徹; 今井　篤; 信正清山; 礼子齋藤
Original assignee: 日本放送協会; 財団法人エヌエイチケイエンジニアリングサービス
Priority date: 2011-01-28
Filing date: 2012-01-27
Publication date: 2012-08-02
Also published as: JP5593244B2; JP2012159540A; US9129609B2; US20130325456A1

Abstract

　背景音と音声が混合している場合でも、安定して適応的な話速変換倍率を決定する。　話速変換倍率決定装置１ａは、入力信号の有音区間と無音区間とを判別する有音無音判定部１０２と、有音区間にて入力信号の基本周波数を算出するとともに安定区間と不安定区間とを決定する基本周波数算出部１０４と、安定区間にて基本周波数の時間変化を平滑化する周波数平滑化部１０６と、不安定区間及び無音区間にて基本周波数を内挿した擬似基本周波数を算出する擬似基本周波数算出部１０８と、平滑化された基本周波数及び擬似基本周波数を接続して基本周波数の概形の標本値を得る基本周波数概形連結部１１０とを有し、基本周波数の概形の標本値を物理指標として出力する物理指標算出部２と、この物理指標に基づいて話速変換倍率を算出する話速変換倍率指定部１２０とを備える。

Description

話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体

関連出願の相互参照

　本出願は、２０１１年１月２８日に出願された日本国特許出願２０１１－０１７２３２号の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。

　本発明は、入力信号の話速（話す速さ）の適応的な変換倍率を決定する話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体に関するものである。

　従来の適応的に話速変換を行う技術では、１倍速（実時間で再生）や２倍速（実時間の半分の時間で再生）といった任意の再生速度が与えられた場合に、入力信号全体に渡って一様な倍率αで速度を変えるのではなく、各部分によって倍率αより大きい倍率や小さい倍率で速度を変えることで、全体としては一様な倍率αで話速変換したのと同じ時間で再生するように帳尻を合わせながら、聞く人にとっては、一様な倍率αで話速変換した場合よりも「ゆっくりと聞き取りやすい」話速変換音声の生成を行うことを目的としている。

　そのために、（１）基本周波数の高いところは話速を緩め、基本周波数の低いところでは話速を速めること、（２）一息で発声する区間を単位として、その開始部分では話速を緩め、終了点に向かって基本周波数の変化に応じて徐々に話速を速めること、（３）一息で発声する区間同士の間にある無音区間を聴感上違和感のない範囲で短縮すること、などを行う技術が知られている（例えば、特許文献１参照）。

　また、一定以上長い無音区間をポーズ区間とし、ポーズ区間に挟まれた音声区間において、その開始点で話速を緩めるとともに一定時間Ｔにわたり所定の減少関数に基づき話速を速くしていき、一定時間Ｔの経過後は、各有声区間における最大基本周波数の大小関係を考慮して話速を緩める率を変える技術が知られている（例えば、特許文献２参照）。

　また、特許文献１や特許文献２に開示された話速制御において、ポーズ区間に挟まれた音声区間内の短い無音区間に対しても聴感上違和感のない範囲で短縮することを許すとともに、話速変換音声の各部分が、一様な倍率αで話速変換した場合に想定される時刻に対して合っているかほとんど遅れていない場合はその後の話速をできるだけ緩めるように設定し、一様な倍率αで話速変換した場合に想定される時刻に対して遅れている程度が大きい程、その後の話速を緩める度合いをより控えるように設定することで、話速変換音声の各部分が、一様な倍率αで話速変換した場合に想定される時刻に対してできるだけずれを少なくする技術が知られている（例えば、特許文献３参照）。

　さらに、入力信号を音声区間と無音区間に分け、音声区間の話速は緩め、無音区間は短縮すると、音声区間の話速を緩めたことにより単位時間当たりの入力信号長に対して出力音声長が延びるため、一時的にメモリに話速変換後の音声を蓄積する必要が生じるが、メモリ量に上限がある。そのため、メモリ量の残量に応じて、音声区間の話速を徐々に速めたり無音区間の削除量を増やしたりする技術が知られている（例えば、特許文献４及び５参照）。

　その他、入力信号の大きさ（パワー）や高さ（基本周波数）の増減と話速が反比例する係数か、又は、入力信号の大きさや高さの数値のｎ乗に話速が反比例する係数によって各部分の話速を決定する技術も知られている（例えば、特許文献６参照）。

特許第３２４９５６７号公報特許第３２１９８９２号公報特許第３２２００４３号公報特許第３３５７７４２号公報特許第３３７３９３３号公報特許第３６１９９４６号公報

　特許文献１～５に記載の技術に共通していることは、入力信号を音声のある音声区間と音声のない無音区間とに分け、音声区間では、何らかの情報に基づいてその継続時間を部分ごとに伸縮し、無音区間は短縮して、総合的に全体の音声時間長を調整することである。しかし、入力信号が人の声だけの場合は、これらの方式に問題はないが、放送番組など、背景音と音声が混合している場合に、音声のない背景音だけの区間が、“無音区間”と判定されるか“音声区間”と判定されるかは保証の限りではなく、誤判定が生じた場合には正しい動作は期待できず、話速変換音声は聞きづらいものとなるおそれがある。

　特許文献６に関しては、入力音声の大きさ（パワー）は入力音声の全ての区間で求めることができるが、入力音声の高さ（基本周波数）は、声のあるところであってしかも声帯が振動している“有声音区間”でしか正しく求めることができない。したがって特許文献６に関しても、背景音と音声が混合している場合には、音声のない背景音だけの区間においてはパワーが大きく基本周波数は正しく求められないため、本来音声ではない区間なので話速を速めなければならないにも関わらず、パワーが大きいことからむしろ話速を緩めてしまうことが考えられる。

　このように、従来の話速変換方法においては、背景音と音声が混合している場合には、音声のある音声区間と、音声のない無音区間の判定が正しく行われない状態になると、適応的な話速変換が期待通りに動作しないという問題があった。

　本発明の目的は、上記問題を解決するため、背景音と音声が混合している場合でも、安定して適応的な話速変換倍率を決定可能な話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体を提供することにある。

課題を解決しようとするための手段

　上記課題を解決するために、本発明に係る話速変換倍率決定装置は、入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置であって、入力信号の有音区間と無音区間とを判別する有音無音判定部と、前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間、及び該基本周波数の値が所定の変化幅を超えて変化する不安定区間を決定する基本周波数算出部と、前記安定区間において、前記基本周波数の時間変化を平滑化する周波数平滑化部と、前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、基本周波数を内挿した擬似基本周波数を算出する擬似基本周波数算出部と、前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得る基本周波数概形連結部と、を有し、前記基本周波数の概形の標本値を物理指標として出力する物理指標算出部と、前記物理指標に基づいて、入力信号に指定すべき話速変換倍率を算出する話速変換倍率指定部と、を備えることを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、一定の時間間隔で入力信号のパワーを算出するパワー算出部と、前記パワーの時間変化を平滑化してパワーの概形の標本値を得るパワー平滑化部と、を備え、前記基本周波数の概形の標本値及び前記パワーの概形の標本値を前記物理指標として出力することを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、入力信号波形から有声度を求める有声度算出部と、前記有声度の時間変化を平滑化して有声度の概形の標本値を得る有声度平滑化部と、を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記有声度の概形の標本値を前記物理指標として出力することを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、前記基本周波数の概形の変化傾向を表す、基本周波数の概形の凹凸度を算出する基本周波数凹凸度算出部を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記基本周波数の概形の凹凸度を前記物理指標として出力することを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、前記パワーの概形の変化傾向を表す、パワーの概形の凹凸度を算出するパワー凹凸度算出部を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記パワーの概形の凹凸度を前記物理指標として出力することを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、入力信号のパワースペクトルを算出し、第１の周波数帯域における正規化パワー、及び第１の周波数帯域よりも高い第２の周波数帯域における正規化パワーを算出する周波数帯域分割・パワー演算部と、前記第１の周波数帯域及び前記第２の周波数帯域における正規化パワーの比を算出する分割帯域パワー比算出部を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記第１の周波数帯域及び第２の周波数帯域における正規化パワーの比を前記物理指標として出力することを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、前記話速変換倍率指定部は、前記物理指標、及び前記物理指標それぞれの話速に対する寄与率に基づいて、前記話速変換倍率を算出することを特徴とする。

　さらに、本発明に係る話速変換倍率決定装置において、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、入力信号の全体又は各部分の時間長が前記再生すべき時間長に適合するように前記話速変換倍率を微調整して最終話速変換倍率を決定する話速変換倍率微調整部を更に備えることを特徴とする。

　また、上記課題を解決するために、本発明に係る話速変換装置は、入力信号の適応的な話速変換を行う話速変換倍率決定装置であって、上述の話速変換倍率決定装置と、前記話速変換倍率に従って入力信号を話速変換する話速変換部と、を備え、前記話速変換部は、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、一定の時間間隔ごとに、一様な倍率で伸縮させた時に出力されるべき目標信号と、入力信号を前記話速変換倍率により変換した変換信号とを、信号の時系列上で比較して時間的なずれ量を算出し、前記話速変換倍率微調整部は、前記時間的なずれ量に応じて、その後の話速変換倍率を再調整することを特徴とする。

　また、上記課題を解決するために、本発明は、入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置として構成するコンピュータに、入力信号の有音区間と無音区間とを判別するステップと、前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間と、該基本周波数の値が所定の変化幅を超えて変化する不安定区間とを決定するステップと、前記安定区間において、前記基本周波数の時間変化を平滑化するステップと、前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、周波数を内挿した擬似基本周波数を算出するステップと、前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得るステップと、前記基本周波数の概形の標本値に応じて、入力信号に指定すべき話速変換倍率を算出するステップと、を実行させるためのプログラム、及びこのプログラムを記録した記録媒体としても特徴付けられる。

　本発明の提案する入力信号の基本周波数やパワーなどの物理的な特徴量に基づき行う適応的な話速変換よれば、従来、背景音と音声が混合している場合、“音声区間”と“無音区間”の判定が正しく行われない状態になると、適応的な話速変換が期待通りに動作しないという欠点を回避でき、背景音と音声が混合している場合でも、安定して、ゆっくり感を与える効果が高く自然な聞こえとなる、適応的な話速変換が可能となる。

本発明による実施例１の話速変換倍率決定装置の構成を示すブロック図である。基本周波数の概形の算出と仮の伸縮率の決定の例を示す図である。本発明による実施例１の話速変換倍率決定装置の動作を示すフローチャートである。本発明による実施例１の話速変換装置の構成を示すブロック図である。本発明による実施例２の話速変換倍率決定装置の構成を示すブロック図である。パワーの概形の算出と仮の伸縮率の決定の例を示す図である。本発明による実施例２の話速変換倍率決定装置の動作を示すフローチャートである。本発明による実施例３の構成を示すブロック図である。自己相関関数の算出を説明する図である。本発明による実施例３の話速変換倍率決定装置の動作を示すフローチャートである。

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　図１は、本発明による実施例１の話速変換倍率決定装置の構成を示すブロック図である。本実施例の話速変換倍率決定装置１ａは、物理指標算出部２と、話速変換倍率決定部３とを備え、これにより、入力信号の適応的話速変換を行う。物理指標算出部２は、入力信号の物理指標を算出する。話速変換倍率決定部３は、物理指標算出部２から入力される物理指標に基づいて、入力信号の各セグメント（区間）に指定すべき話速変換倍率α_ｎを決定する。ここで、添え字ｎは、入力信号を冒頭から単位時間（一定の時間間隔、例えば５ｍｓ）ごとに区切った場合の何番目の位置かを示す整数値である。以後、単位時間あたりのセグメントの一例として、この区切り間隔を５ｍｓとして説明する。

　物理指標算出部２は、基本周波数概形算出部１００を備え、基本周波数概形算出部１００は、有音／無音判定部１０２と、基本周波数算出部１０４と、平滑化部１０６と、擬似基本周波数算出部１０８と、基本周波数概形連結部１１０とを有する。話速変換倍率決定部３は、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０と、話速変換倍率微調整部１４０とを備える。

　本実施例の話速変換倍率決定装置１ａは、包括的には、入力信号における単位時間（５ｍｓ）ごとの基本周波数及び擬似基本周波数の変化の概形を表すＦ_ｎを「物理指標」として用いて、入力信号の各セグメントに指定すべき話速変換倍率α_ｎを決定する。

　以下、物理指標Ｆ_ｎに基づく入力信号に対する各区間の話速変換倍率の決定について順に説明する。ここで、話速変換倍率とは、入力信号の再生速度の変換倍率のことであり、単位時間当たりの信号区間に対する時間的な伸縮率の逆数に相当する。

（物理指標Ｆ_ｎの算出）
　まず、物理指標Ｆ_ｎの算出について図１及び図２を参照して説明する。図２は、基本周波数の概形の算出と仮の伸縮率の決定の例を示す図である。

　有音／無音判定部１０２は、入力信号からその振幅やパワーを算出し、その大きさに基づいて、“声”又は“背景音”（音楽や雑音）、あるいはその両方が同時に存在する部分である「有音区間」と、音が無い「無音区間」とを判別する。例えば、入力信号の振幅又はパワーが所定の閾値を超える場合には有音区間と判別し、所定の閾値未満である場合には無音区間と判別する。

　ここで、パワーの閾値を用いる簡単な具体例を説明する。ｎ番目のセグメントの中心と窓幅２０ｍｓに相当するハミング窓ｈ(ｋ)の中心を合わせて入力信号ｘ（ｋ）を切り出し、その標本点数がＫ個であり、入力信号の量子化精度が１６ｂｉｔであったとすると、そのセグメントのパワーを、次式（１）で定義する。

　そして、有音／無音判定部１０２は、有音区間の信号を基本周波数算出部１０４に出力し、無音区間の信号を擬似基本周波数算出部１０８に出力する。図２（ａ）は有音／無音判定部１０２により有音区間と判別された、入力信号波形の例を示す図である。

　基本周波数算出部１０４は、有音／無音判定部１０２から入力される、有音区間と判別された入力信号に対して、単位時間（一定の時間間隔、例えば５ｍｓ）ごとに基本周波数を算出し、算出した基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする区間を「安定区間」として決定し、算出される基本周波数の値が安定せず不連続で変化が激しい区間を「不安定区間」として決定する。そして、基本周波数算出部１０４は、各安定区間内の基本周波数を特定し、特定した各安定区間内の基本周波数を平滑化部１０６に出力し、不安定区間の信号を擬似基本周波数算出部１０８に出力する。基本周波数算出部１０４は、「不安定区間」の各基本周波数の値は全て棄却する。なお、単位時間ごとの基本周波数は、任意の既知の技術を用いて算出することができる（例えば、特許第３２１９８６８号公報参照）。図２（ｂ）は、図２（ａ）に示される入力信号の単位時間ごとの基本周波数をプロットで示している。また、図２（ｂ）は、「安定区間」を四角の枠で囲って示しており、それ以外の区間は「不安定区間」であることを示している。

　平滑化部１０６は、基本周波数算出部１０４から入力される各安定区間の基本周波数がより滑らかな軌跡となるように、各安定区間の基本周波数からなる軌跡の平滑化を行う。この平滑化のために、カットオフ周波数３～６Ｈｚ程度のローパスフィルタを用いるのが好適である。また、平滑化部１０６は、安定区間の平滑化した軌跡の基本周波数の値を擬似基本周波数算出部１０８及び基本周波数概形連結部１１０に出力する。図２（ｂ）は、平滑化した基本周波数の軌跡を太い線で示している。

　擬似基本周波数算出部１０８は、平滑化部１０６から供給される安定区間の平滑化した軌跡の基本周波数の各値を用いて、補間関数（例えばスプライン関数）により補間することにより、無音区間及び不安定区間における擬似的な基本周波数（擬似基本周波数）を算出し、算出した擬似基本周波数を基本周波数概形連結部１１０に出力する。図２（ｂ）は、擬似的な基本周波数の基本周波数を細い線で示している。

　基本周波数概形連結部１１０は、平滑化部１０６から供給される安定区間の平滑化した軌跡の基本周波数の値と、擬似基本周波数算出部１０８から供給される無音区間及び不安定区間の擬似基本周波数の値とを連結して、処理対象の入力信号の全ての区間（単位時間ごと）にわたる、基本周波数及び擬似基本周波数からなる連続な軌跡（以下、「基本周波数の概形」と称する）を求め、基本周波数の概形を単位時間ごとに標本化した値（以下、「基本周波数の概形の標本値」と称する）Ｆ_ｎを話速変換倍率決定部３の第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０に出力する。

（話速変換倍率の決定）
　次に、話速変換倍率の決定について、図１及び図２を参照して説明する。第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、基本周波数の概形の標本値Ｆ_ｎの値が大きい部分では、単位時間ごとの話速変換倍率（以下、単に「話速変換倍率」と称する）αａ_ｎを相対的に小さく（ゆっくりな話速に）し、基本周波数の概形の標本値Ｆ_ｎの値が小さい部分では、話速変換倍率αａ_ｎを相対的に大きく（速い話速に）することを基本とする。すなわち、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、声（基本周波数）の高い部分では話速変換倍率αａ_ｎを相対的に小さくし、声の低い部分では話速変換倍率αａ_ｎを相対的に大きくする。これは、声の高い部分は意味が強調され、文の中で重要な内容である可能性があるためであり、相対的に話速をゆっくりにすることで、話速変換された言葉の内容の理解に有利に働くと考えられる。

　また、前述のように、無音区間及び不安定区間は音声ではない可能性が高いため、相対的に話速を速めても内容の理解に対する悪影響が少ないと考えられる。擬似基本周波数算出部１０８においては、その前後の安定区間の基本周波数を使って、その区間の擬似基本周波数をスプライン補間等で算出しているが、一般的な人の発声の物理的特徴として、図２（ｂ）の時刻１５０ｍｓからの話し始めの部分では、基本周波数の変化が右上がりになり、ポーズの直前、すなわち図２の時刻１５００ｍｓ付近では、基本周波数の変化が右下がりになる。したがって、図２には示されていないが、ある一つのポーズ区間（背景音だけの区間を含む）の擬似基本周波数としては、下に凸の谷状に補間されることが多い。すなわち、その部分の基本周波数の概形の標本値Ｆ_ｎの値は相対的に小さくなり、結果的に話速変換倍率αａ_ｎが高くなり話速が速まるように動作する。

　次に、基本周波数の概形の標本値Ｆ_ｎを用いた具体的な話速倍率の決定方法について、いくつかの例を説明する。第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、基本周波数の概形の標本値Ｆ_ｎの数が有限の場合は、その中央値を用いて全体を正規化する。例えば、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、中央値の値を１．０とみなし、最大値と最小値のうち、最大値のほうが中央値との差が大きい場合は、最大値を２．０とみなして、全ての基本周波数の概形の標本値Ｆ_ｎについて比例配分で０～２の間の値を新たに割り当て、その値を単位時間（５ｍｓ）ごとの仮の伸縮率Ｆ'_ｎと定める。最大値と最小値のうち、最小値のほうが中央値との差が大きい場合は、最小値を０．０とみなして同様の操作を行う。基本周波数の概形の標本値Ｆ_ｎの対数ｌｏｇＦ_ｎを求めた後に同様の操作を行ってもよい。さらに、中央値の代わりに、全ての基本周波数の概形の標本値Ｆ_ｎの平均値や、最大値と最小値の平均値を用いてもよい。図２（ｃ）は、図２（ｂ）に示される基本周波数の概形の標本値Ｆ_ｎに対応する仮の伸縮率Ｆ'_ｎを示している。この例では、周波数（縦軸）を対数スケールとしているため、ｌｏｇＦ_ｎによる基本周波数の概形を基にＦ'_ｎを算出している。

　話速変換倍率決定装置１ａがリアルタイムで動作して、逐次的に入力信号を話速変換していく必要がある場合には、基本周波数の概形の標本値Ｆ_ｎの数が決まらない。そこで、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、例えば過去３秒以内の基本周波数の概形の標本値Ｆ_ｎの値を保持しておき、その最大値、最小値、又は中央値等を用いて、現在の時刻の基本周波数の概形の標本値Ｆ_ｎの値を正規化し、これを仮の伸縮率Ｆ'_ｎとしてもよい。但し、この場合、物理指標算出部２において、平滑部１０６では、過去と現在の基本周波数の算出結果だけを用いて、平滑化の計算を行う。擬似基本周波数算出部１０８においても、過去の平滑部１０６の出力を用いてスプライン関数等による補間値の算出を行う。但し、上述したように、話し終わりでは基本周波数の変化が右下がりになるため、その後ろの擬似基本周波数を過去の平滑部１０６の出力のみを用いて補間していると、どんどん値が下がっていくので、擬似基本周波数に下限値（例えば過去３秒以内の基本周波数の概形の標本値Ｆ_ｎの値の平均値の１／２の値など）を設けるなどして対処する。

　次に、仮の伸縮率Ｆ'_ｎの値に応じた話速変換倍率αａ_ｎの算出について説明する。上述したように、仮の伸縮率Ｆ'_ｎの値は０～２の間で正規化されているので、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、例えば次式（２），（３）により、話速変換倍率αａ_ｎを算出する。

ここで、Ｋは、仮の伸縮率Ｆ'_ｎの正規化値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

　最後に、話速変換倍率微調整部１４０おける動作を説明する。入力信号の先頭から単位時間（５ｍｓ）おきに数えてｎ番目に与える話速α_ｎは、式（２）、（３）により求まる。

　入力信号全体に対する話速変換倍率α（倍速α）（以下、「再生速度変換倍率」と称する）が与えられた場合には、以下の手順でこれを微調整する。再生速度変換倍率αとしては、０．５～５．０などの任意の値を設定できる。再生速度変換倍率αが与えられた場合、入力信号全体の長さをＬ（単位は秒）とすると、変換後の信号全体の長さはＬ／αにならなければいけない。そこで、まず話速変換倍率微調整部１４０は、全ての入力信号区間を話速変換し、全体として接続後の変換音声の長さＬ_０を先に算出する。

　次に、話速変換倍率微調整部１４０は、次式（４）によって、話速変換倍率αａ_ｎを微調整して最終的な話速変換倍率α_ｎを決定することにより、変換後の信号全体の長さを再生すべき時間長に合わせることができる。
　α_ｎ＝αａ_ｎ×Ｌ_０／（Ｌ／α）　　　　　　　　　　　　　　　　　（４）

　話速変換倍率微調整部１４０は、できるだけ頻繁に、再生速度変換倍率αで一様に変換した音声と同じタイミングに合わせ込む場合には、入力信号全体の長さＬではなく、これをより短い単位に分割した音声の長さに対して、微調整を行うように話速変換倍率α_ｎを修正する。例えば、Ｌ＝Ｌ_１＋Ｌ_２＋・・・＋Ｌ_ＭのようにＭ個に分割できる場合には、話速変換倍率微調整部１４０はＬ_１、Ｌ_２、・・・、Ｌ_Ｍの区間ごとに入力波形を分割し、それぞれの分割区間において、ｍ番目の区間では、まずその区間の話速変換倍率αａ_ｎを用いてこのｍ番目の区間を話速変換して、接続済みの変換音声の部分長Ｌｍ_０を先に算出し、式（４）のＬの代わりにＬｍを、Ｌ_０の代わりにＬｍ_０を設定して各話速変換倍率α_ｎを求め、再度話速変換することで微調整を行う。

　なお、話速変換倍率α_ｎを実現するための話速変換（波形の伸縮）方法は、様々な方法がすでに提案されているが、声の高さを保つ方法として、ＰＩＣＯＬＡ（Pointer Interval Controlled OverLap and Add）法、ＴＤＨＳ（Time Domain Harmonic Scaling）法、ＰＳＯＬＡ（Pitch Synchronous OverLap Add）法などがあり、これ以外にも特許第２６１２８６８号公報、特許第３０８３８３０号公報、特許第２９５５２４７号公報等に開示される波形伸縮法があり、いずれの波形伸縮法を用いてもよい。

　図３は、実施例１の話速変換倍率決定装置１ａの動作を示すフローチャートである。話速変換倍率決定装置１ａは、話速変換する信号を入力する（ステップＳ１０１）。話速変換する信号が入力されると、話速変換倍率決定装置１ａは、有音／無音判定部１０２により、入力信号の有音区間と無音区間とを判別する（ステップＳ１０２）。ステップＳ１０２により有音区間と判別された場合には、話速変換倍率決定装置１ａは、基本周波数算出部１０４により、単位時間ごとに基本周波数を算出し（ステップＳ１０３）、基本周波数の変化度合いに基づいて安定区間であるか不安定区間であるかを判別する（ステップＳ１０４）。ステップＳ１０４により安定区間であると判別された場合には、話速変換倍率決定装置１ａは、平滑化部１０６により、各安定区間の基本周波数からなる軌跡の平滑化を行う（ステップＳ１０５）。

　一方、ステップＳ１０２により無音区間と判別された場合、又はステップＳ１０４により不安定区間であると判別された場合には、話速変換倍率決定装置１ａは、擬似基本周波数算出部１０８により、安定区間の平滑化した軌跡の基本周波数の各値を用いて、補間関数により補間することにより、無音区間及び不安定区間における擬似基本周波数を算出する（ステップＳ１０６）。一般に、雑音や音楽などの背景音だけの部分では、基本周波数を安定的に算出することができないので、この擬似基本周波数の算出を行うことになる。また、入力信号に雑音や背景音が存在しない部分があった場合には、その部分において検出された「無音区間」では基本周波数を算出せず、基本周波数が安定的に求まった区間の値を参照して内挿し、擬似基本周波数を求める。

　そして、話速変換倍率決定装置１ａは、基本周波数概形連結部１１０により、ステップＳ１０５にて平滑化された安定区間の軌跡の基本周波数の値と、ステップＳ１０６にて算出された無音区間及び不安定区間の擬似基本周波数の値とを連結して、基本周波数の概形の標本値Ｆ_ｎを導出する（ステップＳ１０７）。次に、話速変換倍率決定装置１ａは、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０により、基本周波数の概形の標本値Ｆ_ｎの値に基づいて話速変換倍率αａ_ｎを算出する（ステップＳ１０８）。基本周波数の概形の標本値Ｆ_ｎ値が大きい部分ではその程度に応じて話速を緩め、値が小さい部分ではその程度に応じて話速を速める。これにより、入力信号に雑音や背景音が混在する場合でも、安定的に、全体として目的の時間長に合わせながら、適応的な話速変換が可能となる。最後に、話速変換倍率決定装置１ａは、話速変換倍率微調整部１４０により、再生速度変換倍率αが与えられると、最終話速変換倍率α_ｎを決定する（ステップＳ１０９）。

　このように、本実施例の話速変換倍率決定装置１ａによれば、背景音と音声が混合している場合でも、適応的な話速変換が可能となる。また、話速変換倍率微調整部１４０を備えることにより、１倍速（元の時間長で再生）や２倍速（実時間の半分の時間長で再生）といった任意の再生速度変換倍率αが与えられた場合に、各部分によって再生速度変換倍率αより大きい倍率や小さい倍率で速度を変える際、全体としては一様な再生速度変換倍率αで話速変換したのと同じ時間で再生するように帳尻を合わせるよう、逐次話速を微調整して、結果的に、一様な再生速度変換倍率αで話速変換した場合と同じ時間長で、話速変換音声の生成を行うことが可能となる。所定の規則によりＮ個に分割した各部分に対して、それぞれ所定の時間長が設定された場合においては、分割した各部分、Ｗ_１，Ｗ_２，Ｗ_３，・・・，Ｗ_Ｎに与えられた各時間長に適合させるための一様な再生速度変換倍率α_１，α_２，α_３，・・・，α_Ｎで話速変換したのと同じ時間で再生するように帳尻を合わせるよう、逐次話速を微調整する。

（話速変換装置）
　次に、話速変換装置について、図４を参照して説明する。図４は、本発明による実施例１の話速変換装置の構成を示すブロック図である。話速変換装置１０ａは、上述の話速変換倍率決定装置１ａと、話速変換部４とを備える。話速変換部４は、話速変換倍率決定装置１ａにより決定された話速変換倍率に従って入力信号を話速変換する。

　話速変換部４は、リアルタイムで動作して、逐次的に入力信号を話速変換して出力していく必要がある場合においては、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、一定の時間間隔ごとに、一様な倍率で伸縮させた時に出力されるべき目標信号と、入力信号を話速変換倍率により変換した変換信号とを、信号の時系列上で比較し、その時間的なずれの情報を話速変換倍率決定装置１ａに戻し、話速変換倍率決定装置１ａの話速変換倍率微調整部１４０において、ずれ量に応じて、その後の話速変換倍率を再調整する。

　つまり、話速変換部４は、再生速度変換倍率αによって、過去の入力信号のどの部分も一様な倍率で伸縮させたとした場合に出力されるべき信号と、実際に話速変換倍率決定装置１ａから出力されたα_ｎに応じて適応的な話速変換倍率で話速変換されて出力される信号とを、信号の時系列上でＬｍの時間間隔で比較する。そして、その時点における、適応的な話速変換の出力信号が、仮想的な一様伸縮の話速変換の出力信号よりも時間的に前の音声内容であるとき（再生速度変換倍率αが１より小さい場合に生じる）は、その時間的なずれ量の情報を話速変換倍率決定装置１ａの話速変換倍率微調整部１４０に戻す。話速変換倍率微調整部１４０はそのずれ量に応じて、その後の各音声区間に与える話速変換倍率α_ｎを高速度側に僅かにシフトする微調整を付加する。

　また、話速変換部４では、実際に話速変換倍率決定装置１ａから出力されたα_ｎに応じて適応的な話速変換倍率で話速変換されて出力される信号が、仮想的な一様伸縮の話速変換の出力信号よりも時間的に後の音声内容であるとき（再生速度変換倍率αは１より小さくても大きくてもあり得る）は、その時間的なずれ量の情報を話速変換倍率決定装置１ａの話速変換倍率微調整部１４０に戻し、話速変換倍率微調整部１４０ではそのずれ量に応じて、その後の各音声区間に与える話速変換倍率α_ｎを低速度側に僅かにシフトする微調整を付加する。

　このようにして、話速変換装置１０ａは、適応的な話速変換倍率で話速変換されて出力される信号と、仮想的に再生速度変換倍率αで一様に変換した音声との間の時間的なずれ量を、できるだけ小さく留めるようにする。その結果として、話速変換倍率決定装置１ａと話速変換部４のリアルタイム動作における逐次的な信号の入出力関係を保つことができる。したがって、話速変換装置１０ａに逐次入力される信号に対して即座に話速変換した信号を出力する必要がある場合、リアルタイムのシステムとして当該話速変換装置を構成することが可能となる。

　ここで、話速変換倍率決定装置１ａ又は話速変換装置１０ａとして機能させるために、コンピュータを好適に用いることができ、そのようなコンピュータは、話速変換倍率決定装置１ａの各機能を実現する処理内容を記述したプログラムを、当該コンピュータの記憶部に格納しておき、当該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることで実現することができる。

　これにより、話速変換倍率決定装置１ａ又は話速変換装置１０ａを、パーソナルコンピュータのプログラムとしてや、携帯音楽プレイヤーやスマートフォンなどのモバイル機器で動作するアプリケーションとして動作させることができる。

　また、処理内容を記述したプログラムを、ＤＶＤ又はＣＤ－ＲＯＭなどのコンピュータ読み取り可能な記録媒体に記録し、この記録媒体を販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばＩＰなどのネットワーク上にあるサーバの記憶部に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。

　また、そのようなプログラムを実行するコンピュータは、例えば、記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

　次に、本発明による実施例２の話速変換倍率決定装置について説明する。なお、実施例１と同じ構成要素には同一の参照番号を付して説明を省略する。

　図５は、本発明による実施例２の話速変換倍率決定装置の構成を示すブロック図である。本実施例の話速変換倍率決定装置１ｂは、実施例１の話速変換倍率決定装置１ａと同様に、入力信号を単位時間ごとに分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部２と、物理指標算出部２から入力される物理指標に基づいて入力信号の各セグメントに指定すべき話速変換倍率α_ｎを決定する話速変換倍率決定部３とを備える。

　実施例２の話速変換倍率決定装置１ｂは、実施例１の話速変換倍率決定装置１ａ（図１参照）と比較して、物理指標算出部２が更に、パワー概形算出部２００を備え、話速変換倍率決定部３が更に、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０を備える点が相違する。パワー概形算出部２００は、パワー算出部２０２と、平滑化部２０４とを有する。

　本実施例の話速変換倍率決定装置１ｂは、包括的には、入力信号における単位時間ごとの基本周波数の概形を表すＦ_ｎと、入力信号における単位時間ごとのパワーの値の変化の概形を表すＰ_ｎの２つの「物理指標」を用いて、入力信号の各セグメントに指定すべき話速変換倍率α_ｎを決定して話速変換を行い、話速変換した出力信号を生成して出力する。

　実施例２の話速変換倍率決定装置１ｂは、２つの物理指標を用いるため、実施例２の第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０は、基本周波数の概形の標本値Ｆ_ｎの話速に対する寄与率を考慮し、例えば次式（５）～（７）により、話速変換倍率αａ_ｎを算出する。

ここで、Ｒａは基本周波数の概形の標本値Ｆ_ｎによって指定される、話速に対する寄与率であり、０≦Ｒａ≦１とする。また、Ｋは、仮の伸縮率Ｆ'_ｎの正規化値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

（物理指標Ｐ_ｎの算出）
　次に、物理指標Ｐ_ｎの算出について図５及び図６を参照して説明する。図５は、パワーの概形の算出と仮の伸縮率の決定の例を示す図である。

　パワー算出部２０２は、単位時間（５ｍｓ）ごとに、入力信号のパワーを算出し、平滑化部２０４に出力する。パワーは、一般的な方法のひとつとして、入力信号波形に２０ｍｓ程度の時間幅のハミング窓などの窓関数による重み付けを施した後の各標本値の二乗和で求めることができる。具体的な算出方法の例としては、式（１）を用いて説明した方法が挙げられる。図６（ａ）は、入力信号波形の例を示す図である。図６（ｂ）は、図６（ａ）に示される入力信号の単位時間ごとのパワーをプロットで示している。

　平滑化部２０４は、パワー算出部２０２から入力されるパワーがより滑らかな軌跡となるように、単位時間ごとに算出されたパワーの軌跡の平滑化を行って、パワーの概形を単位時間ごとに標本化した値Ｐ_ｎ（以下、「パワーの概形の標本値」と称する）を算出し、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０に出力する。この平滑化のために、カットオフ周波数３～６Ｈｚ程度のローパスフィルタを用いるのが好適である。

（話速変換倍率の決定）
　次に、話速変換倍率の決定について、図５及び図６を参照して説明する。第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０は、パワーの概形の標本値Ｐ_ｎの値が大きい部分では、相対的に話速変換倍率を小さく（ゆっくりな話速に）し、パワーの概形の標本値Ｐ_ｎの値が小さい部分では、相対的に話速変換倍率を大きく（速い話速に）することを基本とする。すなわち、声（パワー）の大きい部分では相対的な話速変換倍率が小さくなり、声の小さい部分では相対的な話速変換倍率が大きくなる。これは、声の大きい部分は意味が強調され、文の中で重要な内容である可能性があるためであり、相対的に話速をゆっくりにすることで、話速変換された言葉の内容の理解に有利に働くと予想できる。また、無音区間は、相対的に話速を速めても内容の理解に対する悪影響が少ないと考えられる。

　次に、パワーの概形の標本値Ｐ_ｎを用いた具体的な話速倍率の決定方法について、いくつかの例を説明する。第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０は、パワーの概形の標本値Ｐ_ｎの数が有限の場合は、その中央値を用いて全体を正規化する。例えば、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０は、中央値の値を１．０とみなし、最大値と最小値のうち、最大値のほうが中央値との差が大きい場合は、最大値を２．０とみなして、全てのパワーの概形の標本値Ｐ_ｎについて比例配分で０～２の間の値を新たに割り当て、その値を単位時間（５ｍｓ）ごとの仮の伸縮率Ｐ'_ｎと定める。最大値と最小値のうち、最小値のほうが中央値との差が大きい場合は、最小値を０．０とみなして同様の操作を行う。全てのパワーの概形の標本値Ｐ_ｎに対してその対数ｌｏｇＰ_ｎを求めた後に同様の操作を行ってもよい。さらに、中央値の代わりに、全てのパワーの概形の標本値Ｐ_ｎの平均値や、最大値と最小値の平均値を用いてもよい。図６（ｃ）は、図６（ｂ）に示されるパワーの概形の標本値Ｐ_ｎに対応する仮の伸縮率Ｐ'_ｎを示している。この例では、パワー（縦軸）をデシベル化しているため、ｌｏｇＰ_ｎによるパワーの概形を基にＰ'_ｎを算出している。

　話速変換倍率決定装置１ｂがリアルタイムで動作して、逐次的に入力信号を話速変換して出力していく必要がある場合においては、パワーの概形の標本値Ｐ_ｎの数が決まらない。そこで、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０は、例えば過去３秒以内のパワーの概形の標本値Ｐ_ｎの値を保持しておき、その最大値、最小値、又は中央値等を用いて、現在の時刻のパワーの概形の標本値Ｐ_ｎの値を正規化し、これを仮の伸縮率Ｐ'_ｎとしてもよい。但し、この場合、物理指標算出部２において、平滑部２０４では、過去と現在のパワーの算出結果だけを用いて、平滑化の計算を行う。

　次に、仮の伸縮率Ｐ'_ｎの値に応じた話速変換倍率αｂ_ｎの算出について説明する。上述したように仮の伸縮率Ｐ'_ｎの値は０～２の間で正規化されているので、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０は、例えば次式（８）～（１０）により、話速変換倍率αｂ_ｎを算出する。

ここで、Ｒｂはパワーの概形の標本値Ｐ_ｎによって指定される、話速に対する寄与率であり、０≦Ｒｂ≦１とする。また、Ｋは、仮の伸縮率Ｐ'_ｎの正規化値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

　式（５）～（７）の寄与率Ｒａ、式（８）～（１０）の寄与率Ｒｂの各値は、例えば入力信号が放送の場合、番組のジャンル（ニュース、ドキュメンタリー、ドラマ、バラエティ、落語・漫才など）が分かる場合には、それに応じて、値の分配率を最適化することにより、より聞きやすさや自然性の高い適応的話速変換が可能となる。例えば、ニュースならば、Ｒａ＝０．７、Ｒｂ＝０．３、ドキュメンタリー、ドラマならば、Ｒａ＝０．５、Ｒｂ＝０．５、落語・漫才ならば、Ｒａ＝０．３、Ｒｂ＝０．７などである。また、話速変換の対象とする言語の違いによって、寄与率Ｒａ，Ｒｂの値を調整することにより、それぞれの言語においてより自然な聞こえ方の変換音声とすることができる。

　最後に、話速変換倍率微調整部１４０おける動作の一例を説明する。入力信号の先頭から単位時間（５ｍｓ）おきに数えてｎ番目に与える話速変換倍率α_ｎは、基本的には、式（５），（６），（８），（９）を用いる場合にはα_ｎ＝αａ_ｎ×αｂ_ｎとし、式（７），（１０）を用いる場合にはα_ｎ＝αａ_ｎ＋αｂ_ｎとする。しかし、再生速度変換倍率αが与えられた場合には、以下の手順でこれを微調整する。再生速度変換倍率αとしては、０．５～５．０などの任意の値を設定できる。

　再生速度変換倍率αが与えられた場合、入力信号全体の長さをＬ（単位は秒）とすると、変換後の信号全体の長さはＬ／αにならなければいけない。まず、話速変換倍率微調整部１４０は、話速変換倍率αａ_ｎ及びαｂ_ｎに基づく、話速変換倍率αａｂ_ｎを算出する。式（５），（６），（８），（９）を用いる場合には、αａｂ_ｎ＝αａ_ｎ×αｂ_ｎとし、式（７），（１０）を用いる場合にはαａｂ_ｎ＝αａ_ｎ＋αｂ_ｎとして、全ての入力信号区間を話速変換し、全体として接続後の変換音声の長さＬ_０を先に算出する。

　次に、次式（１１）によって、話速変換倍率αａｂ_ｎを微調整して最終的な話速変換倍率α_ｎを決定することにより、変換後の信号全体の長さを再生すべき時間長に合わせることができる。
　α_ｎ＝αａｂ_ｎ×Ｌ_０／（Ｌ／α）　　　　　　　　　　　　　　　（１１）

　話速変換倍率微調整部１４０は、できるだけ頻繁に、再生速度変換倍率αで一様に変換した音声と同じタイミングに合わせ込みたい場合は、実施例１と同様に、入力信号全体の長さＬではなく、これをより短い単位に分割した音声の長さに対して、微調整を行うようにα_ｎを修正すればよい。例えば、Ｌ＝Ｌ_１＋Ｌ_２＋・・・＋Ｌ_ＭのようにＭ個に分割できる場合には、話速変換倍率微調整部１４０はＬ_１、Ｌ_２、・・・、Ｌ_Ｍの区間ごとに入力信号波形を分割し、それぞれの分割区間において、ｍ番目の区間では、まずその区間の単位時間（５ｍｓ）ごとの各部分の話速変換倍率αａｂ_ｎ（αａ_ｎ×αｂ_ｎ又はαａ_ｎ＋αｂ_ｎ）を用いてこのｍ番目の区間を話速変換して、接続済みの変換音声の部分長Ｌｍ_０を先に算出し、式（１１）のＬの代わりにＬｍを、Ｌ_０の代わりにＬｍ_０を設定して話速変換倍率α_ｎを求め、再度話速変換することで微調整を行う。なお、話速変換倍率α_ｎを実現するための話速変換（波形の伸縮）方法は、実施例１と同様のものを利用できる。

　図７は、実施例２の話速変換倍率決定装置１ｂの動作を示すフローチャートである。ステップＳ２０１～２０８は、図３に示す実施例１の話速変換倍率決定装置１ａの動作のステップＳ１０１～１０８と同様であるため、説明を省略する。話速変換する信号が入力されると、話速変換倍率決定装置１ｂは、パワー算出部２０２により、入力信号のパワーを算出する（ステップＳ２０９）。そして、話速変換倍率決定装置１ｂは、平滑化部２０４により、算出したパワーの軌跡の平滑化を行い、パワーの概形の標本値Ｐ_ｎを導出する（ステップＳ２１０）。次に、話速変換倍率決定装置１ｂは、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０により、パワーの概形の標本値Ｐ_ｎの値に基づいて話速変換倍率αｂ_ｎを算出する（ステップＳ２１１）。最後に、話速変換倍率決定装置１ｂは、話速変換倍率微調整部１４０により、話速変換倍率αａ_ｎ及びαｂ_ｎから話速変換倍率α_ｎを求める。再生速度変換倍率αが与えられた場合には、最終的な話速変換倍率としてα_ｎを微調整する（ステップＳ２１２）。

　このように、本実施例の話速変換倍率決定装置１ｂによれば、基本周波数とパワーに基づいて話速変換倍率αｎを求めることにより、例えば、背景音（ＢＧＭなど）だけの部分で、パワーが大きい場合でも擬似基本周波数が小さな値を示す部分においては、話速を速めるといった判断が可能となる。

　さらに、話速の制御にパワーの値も加味することで以下の利点がある。通常、声の高さと大きさには正の相関があり、基本周波数が高い部分ではパワーも大きい。このような部分は母音部であることが多く、母音部では基本周波数は安定して算出される。したがって、基本周波数とパワーの値が大きいところで話速を緩めると、母音部を中心に話速を緩める確率が高い。実際の人の発声において、話速が遅い場合と速い場合とを比較した場合、主に母音部が伸縮することが分かっている（例えば、148th Meeting of Acoustical Society of America, 4pSC3. そのアブストラクトは "Journal of the Acoustical Society of America, Vol.116, No.4, Pt.2 of 2. p2628に掲載されているので参照されたい）。したがって、この方式により自然な聞こえの適応的話速変換が可能となる。

　もうひとつのメリットとして、以下のことがある。日本語や中国語は「ピッチ・アクセント」であり、同音異義語の違いや意味の強調を声の高さの変化で制御する傾向が強い。一方、欧米の言語は「ストレス・アクセント」であり、声の大きさの変化で、各単語のリズム感や意味の強調を制御していると言われている。したがって、適応的な話速の制御において、声の高さと大きさの両方の値を加味することで、様々な言語への最適化が可能となる。

　また、話速変換する対象音声が放送の音声である場合、近年開発が盛んなメタ情報として番組のジャンル（ニュース、ドキュメンタリー、ドラマ、バラエティ、落語・漫才）が付与されていれば、それに応じて、話速変換倍率に対して掛け算値や冪指数値（寄与率）の分配率を最適化することにより、より聞きやすさや自然性の高い適応的話速変換が可能となる。

　ここで、実施例１の話速変換装置１０ａと同様に、実施例２の話速変換装置１０ｂは、上述の話速変換倍率決定装置１ｂと、話速変換倍率決定装置１ｂにより決定された話速変換倍率に従って入力信号を話速変換する話速変換部４とを備える。話速変換装置４がリアルタイムの動作をする必要がある場合の動作も、実施例１と同様である。

　また、実施例１と同様に、話速変換倍率決定装置１ｂ又は話速変換装置１０ｂとして機能させるために、コンピュータを好適に用いることができ、そのようなコンピュータは、話速変換倍率決定装置１ｂの各機能を実現する処理内容を記述したプログラムを、当該コンピュータの記憶部に格納しておき、当該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることで実現することができる。

　次に、本発明における適応的な話速変換の効果をさらに安定させるための補助的な手段を加えた実施例３の話速変換倍率決定装置について説明する。なお、実施例２と同じ構成要素には同一の参照番号を付して説明を省略する。

　図８は、本発明による実施例３の話速変換倍率決定装置の構成を示すブロック図である。本実施例の話速変換倍率決定装置１ｃは、実施例１の話速変換倍率決定装置１ａ及び実施例２の話速変換倍率決定装置１ｂと同様に、入力信号を単位時間ごとに分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部２と、物理指標算出部２から入力される物理指標に基づいて入力信号の各セグメントに指定すべき話速変換倍率α_ｎを決定する話速変換倍率決定部３とを備える。

　実施例３の話速変換倍率決定装置１ｃは、実施例２の話速変換倍率決定装置１ｂ（図５参照）と比較して、物理指標算出部２が更に、補助的な物理指標の算出部である、有声度概形算出部３００と、基本周波数概形算出部４００と、凹凸度算出部４１０と、パワー概形算出部５００と、凹凸度算出部５１０と、周波数帯域分割・パワー演算部６００と、分割帯域パワー比算出部６１０とを備え、話速変換倍率決定部３が更に、補助的な物理指標に基づく話速変換倍率指定部である、第３の話速変換倍率指定部（話速変換倍率指定部ｃ）３２０と、第４の話速変換倍率指定部（話速変換倍率指定部ｄ）４２０と、第５の話速変換倍率指定部（話速変換倍率指定部ｅ）５２０と、第６の話速変換倍率指定部（話速変換倍率指定部ｆ）６２０とを備える点が相違する。パワー概形算出部２００は、パワー算出部２０２と、平滑化部２０４とを有する。有声度概形算出部３００は、有声度算出部３０２と、平滑化部３０４とを有する。周波数帯域分割・パワー演算部６００は、スペクトル算出部６０２と、帯域分割部６０４と、パワー演算部６０６とを有する。基本周波数概形算出部４００の内部構成は、基本周波数概形算出部１００と同一であり、パワー概形算出部５００の内部構成は、パワー概形算出部２００と同一である。

（有声度を用いた補助的な話速変換倍率制御）
　有声度算出部３０２は、放送の音声など背景音などの混入も含めた、入力信号波形から自己相関関数Ｒ（τ）を求め、自己相関関数Ｒ（τ）を用いて有声度を求める。自己相関関数Ｒ（τ）は次式（１２）により導出され、有声度ｕは次式（１３）により導出される。

ここで、ｘ’（ｋ）は、図９（ａ）に示すように、入力信号波形ｘ（ｋ）に対してハミング窓などの窓関数ｈ（ｋ）による重み付けを施した波形であり、ｘ’（ｋ）＝ｈ（ｋ）・ｘ（ｋ）である。

ｕ＝Ｗ（τ）・Ｒ（τ）_ｍａｘ／Ｒ（０）　　　　　　　　　　　　　（１３）
ここで、Ｒ（τ）_ｍａｘは、図９（ｂ）に示すように、τ＞０における最大値である。τは時間遅れ量であり、Ｗ（τ）はＲ（τ）_ｍａｘを与えるτの値に応じた重みである。あるいは、別の算出方法として、単位時間（５ｍｓ）における入力信号波形のゼロ交差の回数をカウントし、このカウント値の逆数とすることもできる。

　有声度ｕは入力信号のどの部分でも確実に単位時間（５ｍｓ）ごとに算出されるが、その値は必ずしも滑らかな時間変化をするとは限らない。そこで、平滑化部３０４は、有声度算出部３０２から入力される単位時間ごとの有声度の軌跡を平滑化したＵ_ｎ（以下、「有声度の概形の標本値」と称する）を算出し、第３の話速変換倍率指定部（話速変換倍率指定部ｃ）３２０に出力する。この平滑化のために、カットオフ周波数３～６Ｈｚ程度のローパスフィルタを用いるのが好適である。

　第３の話速変換倍率指定部（話速変換倍率指定部ｃ）３２０は、有声度の概形の標本値Ｕ_ｎの値に応じて、話速変換倍率αｃ_ｎを算出する。自己相関関数を用いる場合を説明する。一般的に、有声度の概形の標本値Ｕ_ｎは、－０．２～１．２程度の範囲の値をとる。そこで、有声度の概形の標本値Ｕ_ｎが０．５より大きい場合は話速を緩め（αｃ_ｎ＜１．０）、Ｕ_ｎが０．５以下であれば話速を速める（αｃ_ｎ＞１．０）こととし、第３の話速変換倍率指定部（話速変換倍率指定部ｃ）３２０は、例えば次式（１４）～（１６）により話速変換倍率αｃ_ｎを算出する。

但し、式（１４）では、Ｕ_ｎ＜－０．２の場合には、Ｕ_ｎ＝－０．２として計算する。ここで、Ｒｃは有声度の概形によって指定される話速変換倍率に対する寄与率であり、０≦Ｒｃ≦１とする。また、Ｋは、有声度の概形の標本値Ｕ_ｎの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

（基本周波数の概形の凹凸度を用いた補助的な話速変換倍率制御）
　次に、基本周波数の概形の凹凸度を利用する動作の一例について説明する。基本周波数の概形算出部４００の動作は、実施例１で説明した基本周波数の概形算出部１００と同じであり、単位時間ごとに基本周波数の概形の標本値Ｆ_ｎを出力する。

　凹凸度算出部（基本周波数凹凸度算出部）４１０は、基本周波数の概形の標本値Ｆ_ｎの変化傾向を表す凹凸度（以下、「基本周波数の概形の凹凸度」と称する）Ｓ_ｎを算出する。例えば、凹凸度算出部（基本周波数凹凸度算出部）４１０は、基本周波数の概形の標本値Ｆ_ｎに対して、それぞれ前側３０ｍｓの値Ｆｂ_ｎと、後ろ側３０ｍｓの値Ｆａ_ｎとを使って、（Ｆ_ｎ－Ｆｂ_ｎ）と（Ｆ_ｎ－Ｆａ_ｎ）の平均値を基本周波数の概形の凹凸度Ｓ_ｎとし、極大又は極小の程度を算出する。この場合、軌跡が平坦、又は単調増加や単調減少の区間では、極大又は極小の程度は０に近い値となる。なお、基本周波数の概形の凹凸度Ｓ_ｎのうち、その絶対値が最も大きな値を使って、全ての基本周波数の概形の凹凸度Ｓ_ｎを除して正規化する。従って、極大又は極小の程度である基本周波数の概形の凹凸度Ｓ_ｎの値は－１～１となる。

　この方法は、基本周波数の概形の標本値Ｆ_ｎの前後５ｍｓ（１サンプル）の値を使うようにすれば、基本周波数の概形の標本値Ｆ_ｎの２階差分を算出することと等価である。すなわち、まず基本周波数の概形の標本値Ｆ_ｎの全体に対して２階差分Ｆ”_ｎ＝（Ｆ_ｎ－Ｆ_ｎ－１）－（Ｆ_ｎ－１－Ｆ_ｎ－２）を算出し、次に、その絶対値が最も大きな値を使って、全てのＦ”_ｎを正規化し、同時に符号を反転して基本周波数の概形の凹凸度Ｓ_ｎとする。その結果、基本周波数の概形の凹凸度Ｓ_ｎの値はやはり－１～１となる。よく知られているように、関数の２階微分は、関数が極小の部分では正の値をとり、極大の部分では負の値をとる。またその絶対値が大きいほど、極大・極小の度合いが強い（凹凸がより先鋭になっている）。任意の連続な曲線に対する２階差分は２階微分と等価と考えられるので、このＳ_ｎを基本周波数の概形の凹凸度として扱うことができる。

　第４の話速変換倍率指定部（話速変換倍率指定部ｄ）４２０は、単位時間（５ｍｓ）ごとの基本周波数の概形の凹凸度Ｓ_ｎの値に応じて、Ｓ_ｎの値が正の時は話速を緩め、負の時は話速を速めることとし、例えば次式（１７）～（１９）により、話速変換倍率αｄ_ｎを算出する。

ここで、Ｒｄは基本周波数の概形の凹凸度によって指定される話速変換倍率に対する寄与率であり、０≦Ｒｄ≦１とする。また、Ｋは、基本周波数の概形の凹凸度Ｓ_ｎの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

（パワーの概形の凹凸度を用いた補助的な話速変換倍率制御）
　次に、パワーの概形の凹凸度を利用する動作の一例について説明する。基本的な方法は、基本周波数の概形の凹凸度を利用する場合と同様である。入力信号に対して、パワーの概形算出部５００の出力について、凹凸度算出部５１０において、その山谷の凹凸度を算出する。基本周波数の概形算出部５００の動作は、既に説明したパワーの概形算出部２００と同じであり、単位時間（５ｍｓ）ごとにパワーの概形の標本値Ｐ_ｎが出力される。

　凹凸度算出部（パワー凹凸度算出部）５１０は、パワーの概形の標本値Ｐ_ｎの変化傾向を表す凹凸度（以下、「パワーの概形の凹凸度」と称する）Ｑ_ｎを算出する。例えば、パワーの概形の標本値Ｐ_ｎに対して、それぞれ前側３０ｍｓの値Ｐｂ_ｎと、後ろ側３０ｍｓの値Ｐａ_ｎとを使って、（Ｐ_ｎ－Ｐｂ_ｎ）と（Ｐ_ｎ－Ｐａ_ｎ）の平均値をパワーの概形の凹凸度Ｑ_ｎとし、極大又は極小の程度を算出する。この場合、軌跡が平坦、又は単調増加や単調減少の区間では、極大又は極小の程度は０に近い値となる。なお、パワーの概形の凹凸度Ｑ_ｎのうち、その絶対値が最も大きな値を使って、全てのパワーの概形の凹凸度Ｑ_ｎを除して正規化する。したがって、極大又は極小の程度であるパワーの概形の凹凸度Ｓ_ｎの値は－１～１となる。

　この方法は、パワーの概形の標本値Ｐ_ｎの前後５ｍｓ（１サンプル）の値を使うようにすれば、パワーの概形の標本値Ｐ_ｎの２階差分を算出することと等価であることは、基本周波数の概形の標本値と同様である。すなわち、パワーの概形の標本値Ｐ_ｎの全体に対して２階差分Ｐ”_ｎ＝（Ｐ_ｎ－Ｐ_ｎ－１）－（Ｐ_ｎ－１－Ｐ_ｎ－２）を算出し、次に、その絶対値が最も大きな値を使って、全てのＰ”_ｎを正規化し、同時に符号を反転してパワーの概形の凹凸度Ｑ_ｎとする。その結果、パワーの概形の凹凸度Ｑ_ｎの値はやはり－１～１となる。

　第５の話速変換倍率指定部（話速変換倍率指定部ｅ）５２０は、単位時間（５ｍｓ）ごとのパワーの概形の凹凸度Ｑ_ｎの値に応じて、Ｑ_ｎの値が正の時は話速を緩め、負の時は話速を速めることとし、例えば次式（２０）～（２２）により、話速変換倍率αｅ_ｎを算出する。

ここで、Ｒｅはパワーの概形の凹凸度によって指定される話速変換倍率に対する寄与率であり、０≦Ｒｅ≦１とする。また、Ｋは、パワーの概形の凹凸度Ｑ_ｎの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

（分割した周波数帯域のパワー比を用いた補助的な話速変換倍率制御）
　次に、分割した周波数帯域のパワー比を利用する動作の一例について説明する。周波数帯域分割・パワー演算部６００は、入力信号のパワースペクトルを算出し、第１の周波数帯域における正規化パワー、及び第１の周波数帯域よりも高い周波数帯域における正規化パワーを算出する。

　スペクトル算出部６０２は、入力信号に対して単位時間（５ｍｓ）ごとに、高速フーリエ変換（Fast Fourier Transform, ＦＦＴ）などによって時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトル（単位はｄＢ）を算出する。

　帯域分割部６０４は、スペクトル算出部６０２から入力されるパワースペクトルを複数の周波数帯域に分割する。例えば、周波数帯域Ｂ１：０～３００Ｈｚ、周波数帯域Ｂ２：３００～１５００Ｈｚ、周波数帯域Ｂ３：１５００～３０００Ｈｚ、周波数帯域Ｂ４：３０００～８０００Ｈｚ、周波数帯域Ｂ５：８０００Ｈｚ以上といった具合に分割する。

　パワー演算部６０６は、低い側の周波数帯域と高い側の周波数帯域について、それぞれ正規化パワーを算出する。例えば、ここでは、低い側の周波数帯域として周波数帯域Ｂ２、高い側の周波数帯域として周波数帯域Ｂ４を選択する。正規化パワーは、各周波数帯域に含まれるパワースペクトルの本数分だけ各値を合計し、その後その本数で除することで算出する。パワー演算部６０６は、算出した周波数帯域Ｂ２及び周波数帯域Ｂ４の正規化パワーを、分割帯域パワー比算出部６１０に出力する。

　分割帯域パワー比算出部６１０は、パワー演算部６０６から入力される低域側の正規化パワーと高域側の正規化パワーがすでに対数化されていることから、その差として、低域側の正規化パワーから高域側の正規化パワーを減ずる（すなわち、正規化パワーの比を求める）。通常その差は、１０ｄＢ～４０ｄＢ程度である。そして、単位時間（５ｍｓ）ごとに算出されたこの値の軌跡を平滑化して、分割した周波数帯域の正規化パワーの比（以下、分割帯域パワー比と称する）Ｅ_ｎを算出し、第６の話速変換倍率指定部（話速変換倍率指定部ｆ）６２０に出力する。この平滑化のために、カットオフ周波数３～６Ｈｚ程度のローパスフィルタを用いるのが好適である。

　第６の話速変換倍率指定部（話速変換倍率指定部ｆ）６２０は、分割帯域パワー比Ｅ_ｎが２５ｄＢより大きい場合は話速を緩め、分割帯域パワー比Ｅ_ｎが２５ｄＢ以下であれば話速を速めることとし、例えば次式（２３）～（２５）により、話速変換倍率αｆ_ｎを算出する。

但し、式（２３）では、Ｅ_ｎ＜１０（単位はｄＢ）の場合には、Ｅ_ｎ＝１０として計算する。ここで、Ｒｆは分割した分割帯域パワー比によって指定される話速変換倍率に対する寄与率であり、０≦Ｒｆ≦１とする。また、Ｋは、分割帯域パワー比Ｅ_ｎの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばＫ＝１．４～２．０とする。

　式（１４）～（１６）のＲｃ、式（１７）～（１９）のＲｄ、式（２０）～（２２）のＲｅ、式（２３）～（２５）のＲｆの各値は、式（５）～（７）のＲａ、式（８）～（１０）のＲｂと同列に値を調整して用いる。例えば入力信号が放送の場合、番組のジャンル（ニュース、ドキュメンタリー、ドラマ、バラエティ、落語・漫才）が分かる場合には、それに応じて、値の分配率を最適化することにより、より聞きやすさや自然性の高い適応的話速変換が可能となる。例えば、ニュースならば、Ｒａ＝０．３、Ｒｂ＝０．１、Ｒｃ＝０．１、Ｒｄ＝０．３、Ｒｅ＝０．１、Ｒｆ＝０．１、ドキュメンタリー、ドラマならば、Ｒａ＝０．２、Ｒｂ＝０．２、Ｒｃ＝０．１、Ｒｄ＝０．２、Ｒｅ＝０．２、Ｒｆ＝０．１、落語・漫才ならば、Ｒａ＝０．１、Ｒｂ＝０．１、Ｒｃ＝０．３、Ｒｄ＝０．２、Ｒｅ＝０．２、Ｒｆ＝０．１などである。

　また、話速変換の対象とする言語の違いによって、Ｒａ，Ｒｂ，Ｒｃ，Ｒｄ，Ｒｅ，Ｒｆの値を調整することにより、それぞれの言語においてより自然な聞こえ方の変換音声とすることができる。

（話速変換倍率の微調整）
　最後に、話速変換倍率微調整部１４０おける動作の一例を説明する。入力信号の先頭から単位時間（５ｍｓ）おきに数えてｎ番目に与える話速変換倍率α_ｎは、基本的には、式（５），（６），（８），（９），（１４），（１５），（１７），（１８），（２０），（２１），（２３），（２４）を用いる場合にはα_ｎ＝αａ_ｎ×αｂ_ｎ×αｃ_ｎ×αｄ_ｎ×αｅ_ｎ×αｆ_ｎとし、式（７），（１０），（１６），（１９），（２２），（２５）を用いる場合にはα_ｎ＝αａ_ｎ＋αｂ_ｎ＋αｃ_ｎ＋αｄ_ｎ＋αｅ_ｎ＋αｆ_ｎとする。しかし、再生速度変換倍率αが与えられた場合には、以下の手順でこれを微調整する。再生速度変換倍率αとしては、０．５～５．０などの任意の値を設定できる。

　再生速度変換倍率αが与えられた場合、入力信号全体の長さをＬ（単位は秒）とすると、変換後の信号全体の長さはＬ／αにならなければいけない。まず、話速変換倍率微調整部１４０は、式（５），（６），（８），（９），（１４），（１５），（１７），（１８），（２０），（２１），（２３），（２４）を用いる場合にはαａｆ_ｎ＝αａ_ｎ×αｂ_ｎ×αｃ_ｎ×αｄ_ｎ×αｅ_ｎ×αｆ_ｎとして全ての入力信号区間を話速変換し、式（７），（１０），（１６），（１９），（２２），（２５）を用いる場合にはαａｆ_ｎ＝αａ_ｎ＋αｂ_ｎ＋αｃ_ｎ＋αｄ_ｎ＋αｅ_ｎ＋αｆ_ｎとして全ての入力信号区間を話速変換した結果、全体として接続後の変換音声の長さＬ_０を先に算出する。

　次に、次式（２６）によって、各部分の話速変換倍率αａｆ_ｎを微調整して最終話速変換倍率α_ｎを決定することにより、変換後の信号全体の長さを再生すべき時間長に合わせることができる。
　α_ｎ＝αａｆ_ｎ×Ｌ_０／（Ｌ／α）　　　　　　　　　　　　　　　（２６）

　話速変換倍率微調整部１４０は、できるだけ頻繁に、再生速度変換倍率αで一様に変換した音声と同じタイミングに合わせ込む場合には、入力信号全体の長さＬではなく、これをより短い単位に分割した音声の長さに対して、微調整を行うようにα_ｎを修正すればよい。例えば、Ｌ＝Ｌ_１＋Ｌ_２＋・・・＋Ｌ_ＭのようにＭ個に分割できる場合には、話速変換倍率微調整部１４０はＬ_１，Ｌ_２，・・・，Ｌ_Ｍの区間ごとに入力波形を分割し、それぞれの分割区間において、ｍ番目の区間では、まずその区間の単位時間（５ｍｓ）ごとの各部分の話速変換倍率αａｆ_ｎ（αａ_ｎ×αｂ_ｎ×αｃ_ｎ×αｄ_ｎ×αｅ_ｎ×αｆ_ｎ又はαａ_ｎ＋αｂ_ｎ＋αｃ_ｎ＋αｄ_ｎ＋αｅ_ｎ＋αｆ_ｎ）を用いてこのｍ番目の区間を話速変換して、接続済みの変換音声の部分長Ｌｍ_０を先に算出し、式（２６）のＬの代わりにＬｍを、Ｌ_０のＬの代わりにＬｍ_０を設定して各話速変換倍率α_ｎを求め、再度話速変換することで微調整を行う。なお、話速変換倍率α_ｎを実現するための話速変換（波形の伸縮）方法は、実施例１と同様のものを利用できる。

　図１０は、実施例３の話速変換倍率決定装置１ｃの動作を示すフローチャートである。話速変換倍率決定装置１ｃは、話速変換する信号を入力する（ステップＳ３０１）。話速変換する信号が入力されると、話速変換倍率決定装置１ｃは、基本周波数概形算出部１００により、基本周波数の概形の標本値Ｆ_ｎを導出し（ステップＳ３０２）、パワー概形算出部２００により、パワーの概形の標本値Ｐ_ｎを導出し（ステップＳ３０３）、有声度概形算出部３００により、有声度概形の標本値Ｕ_ｎを導出し（ステップＳ３０４）、基本周波数概形算出部４００及び凹凸度算出部４１０により、基本周波数の概形の凹凸度Ｓ_ｎを導出し（ステップＳ３０５）、パワー概形算出部５００及び凹凸度算出部５１０により、パワーの概形の凹凸度Ｑ_ｎを導出し（ステップＳ３０６）、周波数帯域分割・パワー演算部６００及び分割帯域パワー比算出部６１０により、分割帯域パワー比Ｅ_ｎを導出する（ステップＳ３０７）。

　ステップＳ３０２にて基本周波数の概形の標本値Ｆ_ｎが導出されると、話速変換倍率決定装置１ｃは、第１の話速変換倍率指定部（話速変換倍率指定部ａ）１２０により、話速変換倍率αａ_ｎを算出する（ステップＳ３０８）。ステップＳ３０３にてパワーの概形の標本値Ｐ_ｎが導出されると、話速変換倍率決定装置１ｃは、第２の話速変換倍率指定部（話速変換倍率指定部ｂ）２２０により、話速変換倍率αｂ_ｎを算出する（ステップＳ３０９）。ステップＳ３０４にて有声度概形の標本値Ｕ_ｎが導出されると、話速変換倍率決定装置１ｃは、第３の話速変換倍率指定部（話速変換倍率指定部ｃ）３２０により、話速変換倍率αｃ_ｎを算出する（ステップＳ３１０）。ステップＳ３０５にて基本周波数の概形の凹凸度Ｓ_ｎが導出されると、話速変換倍率決定装置１ｃは、第４の話速変換倍率指定部（話速変換倍率指定部ｄ）４２０により、話速変換倍率αｄ_ｎを算出する（ステップＳ３１１）。ステップＳ３０６にてパワーの概形の凹凸度Ｑ_ｎが導出されると、話速変換倍率決定装置１ｃは、第５の話速変換倍率指定部（話速変換倍率指定部ｅ）５２０により、話速変換倍率αｅ_ｎを算出する（ステップＳ３１２）。ステップＳ３０７にて分割帯域パワー比Ｅ_ｎが導出されると、話速変換倍率決定装置１ｃは、第６の話速変換倍率指定部（話速変換倍率指定部ｆ）６２０により、話速変換倍率αｆ_ｎを算出する（ステップＳ３１３）。そして、最後に、話速変換倍率決定装置１ｃは、話速変換倍率微調整部１４０により、話速変換倍率αａ_ｎ～αｆ_ｎから話速変換倍率α_ｎを求める。再生速度変換倍率αが与えられた場合には、最終的な話速変換倍率としてα_ｎを微調整する（ステップＳ３１４）。

　なお、ここでは話速変換倍率αａ_ｎ～αｆ_ｎ全てを用いる例を示したが、話速変換倍率αｃ_ｎ～αｆ_ｎについては少なくとも１つを使用する構成とすることができる。

　話速変換倍率決定装置１ｃは、有声度の概形の標本値Ｕ_ｎ（話速変換倍率αｃ_ｎ）を併用した場合には、以下の利点がある。この物理指標は先に説明したように、入力信号の全ての位置で求めることが可能である。また背景音（音楽や雑音）が混入している場合にも必ず算出可能である。通常、母音部は有声度が高い。また、完全な無音部や、一般的に色々な音の周波数成分が混じっている音楽や雑音などの背景音は有声度が低い。したがって、有声度の高いところで話速を緩め、有声度の低いところで話速を速めることで、背景音が混入している場合においても、音声の重要な部分である母音部では話速が緩められ、完全な無音部や背景音だけの部分は話速が速められるので、基本周波数の概形の標本値Ｆ_ｎに加え、有声度も加味することで、入力信号全体として、より安定した効果的な適応的話速変換が可能となる。

　また、話速変換倍率決定装置１ｃは、基本周波数の概形の凹凸度Ｓ_ｎ（話速変換倍率αｄ_ｎ）を併用した場合には、以下の利点がある。これは、特許文献１で、「基本周波数の高いところは話速を緩め、低いところでは話速を速める」としていることとは異なる。例えば、男女のコンビによる漫才などを考えると、男女の声がほとんどポーズのない状態で激しく入れ替わる。このような入力信号に対して、特許文献１に記載の技術により、「基本周波数の高いところは話速を緩め、低いところでは話速を速める」と、女性の声は高いためいつも緩めるが、男性の声は低いためいつも速くなるという傾向が生じる。声のある区間とない区間とを正しく判別しなければいけない特許文献１の技術に比べて、実施例１，２の話速変換倍率決定装置１a，１ｂにおいては、雑音や背景音が混在する部分も含めた連続な基本周波数の概形を用いる点で安定的に動作するという利点はあるものの、男女の声が混合している場合には、基本周波数の概形の値に比例して話速変換倍率を設定する点で動作が不安定になることがある。

　そこで、基本周波数の概形の凹凸度Ｓ_ｎを併用することにより、基本周波数の概形において、言葉のアクセントなどに付随して、女性の声の部分でも、男性の声の部分でも、必ず凹凸が生じるため、男女それぞれ、凸の部分は話速を緩め、凹の部分は話速を速めることができ、男女両者に公平な配分で、話速の適応的な制御が可能である。

　また、話速変換倍率決定装置１ｃは、パワーの概形の凹凸度Ｑ_ｎ（話速変換倍率αｅ_ｎ）を併用した場合には以下の利点がある。例えば、ドラマや講談などを考えると、演出よって、ある１センテンスは大きな声で発声し、次の１センテンスは急に小さい声で発声するといったことがよく行われる。このような入力信号に対して、実施例２の話速変換倍率決定装置１ｂにおいては、声の大きいセンテンスは相対的に話速を緩め、声の小さいセンテンスでは相対的に速めるという傾向が否めない。

　そこで、パワーの概形の凹凸度Ｑ_ｎを併用することにより、大きな声のセンテンスでも、声の小さいセンテンスでも、単語単位のアクセントなどに付随して、必ず凹凸が生じるため、それぞれ、凸の部分は話速を緩め、凹の部分は話速を速めることができ、声の大きさの大小に関係なく公平な配分で、話速の適応的な制御が可能となる。

　また、話速変換倍率決定装置１ｃは、分割帯域パワー比Ｅ_ｎ（話速変換倍率αｆ_ｎ）を併用した場合には以下の利点がある。特許文献４及び５には、定常状態における周波数スペクトルの複数の帯域と入力信号の周波数スペクトルの対応する各帯域のパワーを比較することにより、入力信号が“音声区間”か“無音区間”かを判別することが述べられているが、本発明の“周波数スペクトルを複数の帯域に分割した場合のある２つの帯域の低い側と高い側のパワー比”は、定常状態におけるスペクトルのパワーと比較するのではなく、入力信号のある瞬間の周波数スペクトルだけを対象として、それを帯域分割し、そのうちのある２つの帯域の低い側と高い側のパワー比を求めるものであり、特許文献４及び５の技術とは本質的に全く異なる物理量である。特許文献４又は５に記載の技術で、“音声区間”か“無音区間”かの判別を行った場合、先に述べたように、ある程度大きな音量の音楽などが背景音として混入している場合、正しく“音声区間”と“無音区間”を判別することは困難であり、したがって正しく適応的な話速変換を行うことができない。

　そこで、分割帯域パワー比Ｅ_ｎを併用することにより、入力信号のある瞬間の周波数スペクトルだけを対象として、そのうちのある２つの帯域の低い側と高い側のパワー比に基づき話速を決定するため、本質的に判定誤りというものは存在せず、安定して話速の制御が可能である。例えば、低い側のパワーに対して高い側のパワーが小さいときは話速を緩め、低い側のパワーに対して高い側のパワーが大きいときは話速を速めるといった制御が可能となる。この“２つの帯域の低い側と高い側のパワー比”は入力信号が、音声区間、音楽、雑音、無音など種類によって値が変わるものであるので、このパワー比の値により話速制御することにより、音声区間では話速を緩め、音楽、雑音、無音などの区間では話速を速めることが可能となる。

　ここで、実施例１の話速変換装置１０ａと同様に、実施例３の話速変換装置１０ｃは、上述の話速変換倍率決定装置１ｃと、話速変換倍率決定装置１ｃにより決定された話速変換倍率に従って入力信号を話速変換する話速変換部４とを備える。話速変換装置４がリアルタイムの動作をする必要がある場合の動作も、実施例１と同様である。

　また、実施例１と同様に、話速変換倍率決定装置１ｃ又は話速変換装置１０ｃとして機能させるために、コンピュータを好適に用いることができ、そのようなコンピュータは、話速変換倍率決定装置１ｃの各機能を実現する処理内容を記述したプログラムを、当該コンピュータの記憶部に格納しておき、当該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることで実現することができる。

　また、そのようなプログラムを実行するコンピュータは、例えば、記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

　上述の各実施例は、個々に代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

　本発明は、話速変換を要する任意の用途に有用である。例えば、テレビやラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダーなどに一度記録して、ゆっくり又は速く視聴したりすることができる。また、視覚障害者からは音声情報を効率的に聴取したいという要望があり、本発明を用いれば、視覚障害者用の録音図書などを高速に再生して聞くこともできる。さらには、語学学習や発声訓練システムにおいて、その教材の作成時に利用したり、学習時に学習者の上達度に合わせて音声の話速を変換して学習者に聞かせたりすることもできる。

　１ａ，１ｂ，１ｃ　話速変換倍率決定装置
　２　　　物理指標算出部
　３　　　話速変換倍率決定部
　４　　　話速変換部
　１０ａ，１０ｂ，１０ｃ　話速変換装置
　１００　基本周波数概形算出部
　１０２　有音／無音判定部
　１０４　基本周波数算出部
　１０６　平滑化部
　１０８　擬似基本周波数算出部
　１１０　基本周波数概形連結部
　１２０　第１の話速変換倍率指定部（話速変換倍率指定部ａ）
　１４０　話速変換倍率微調整部
　２００　パワー概形算出部
　２０２　パワー算出部
　２０４　平滑化部
　２２０　第２の話速変換倍率指定部（話速変換倍率指定部ｂ）
　３００　有声度概形算出部
　３０２　有声度算出部
　３０４　平滑化部
　３２０　第３の話速変換倍率指定部（話速変換倍率指定部ｃ）
　４００　基本周波数概形算出部
　４１０　凹凸度算出部
　４２０　第４の話速変換倍率指定部（話速変換倍率指定部ｄ）
　５００　パワー概形算出部
　５１０　凹凸度算出部
　５２０　第５の話速変換倍率指定部（話速変換倍率指定部ｅ）
　６００　周波数帯域分割・パワー演算部
　６０２　スペクトル算出部
　６０４　帯域分割部
　６０６　パワー演算部
　６１０　分割帯域パワー比算出部
　６２０　第６の話速変換倍率指定部（話速変換倍率指定部ｆ）

Claims

　入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置であって、
　入力信号の有音区間と無音区間とを判別する有音無音判定部と、
前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間、及び該基本周波数の値が所定の変化幅を超えて変化する不安定区間を決定する基本周波数算出部と、
前記安定区間において、前記基本周波数の時間変化を平滑化する周波数平滑化部と、
前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、基本周波数を内挿した擬似基本周波数を算出する擬似基本周波数算出部と、
前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得る基本周波数概形連結部と、を有し、
前記基本周波数の概形の標本値を物理指標として出力する物理指標算出部と、
　前記物理指標に基づいて、入力信号に指定すべき話速変換倍率を算出する話速変換倍率指定部と、
を備えることを特徴とする話速変換倍率決定装置。
　前記物理指標算出部は、一定の時間間隔で入力信号のパワーを算出するパワー算出部と、前記パワーの時間変化を平滑化してパワーの概形の標本値を得るパワー平滑化部と、を備え、
前記基本周波数の概形の標本値及び前記パワーの概形の標本値を前記物理指標として出力することを特徴とする、請求項１に記載の話速変換倍率決定装置。
　前記物理指標算出部は、入力信号波形から有声度を求める有声度算出部と、前記有声度の時間変化を平滑化して有声度の概形の標本値を得る有声度平滑化部と、を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記有声度の概形の標本値を前記物理指標として出力することを特徴とする、請求項２に記載の話速変換倍率決定装置。
　前記物理指標算出部は、前記基本周波数の概形の変化傾向を表す、基本周波数の概形の凹凸度を算出する基本周波数凹凸度算出部を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記基本周波数の概形の凹凸度を前記物理指標として出力することを特徴とする、請求項２に記載の話速変換倍率決定装置。
　前記物理指標算出部は、前記パワーの概形の変化傾向を表す、パワーの概形の凹凸度を算出するパワー凹凸度算出部を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記パワーの概形の凹凸度を前記物理指標として出力することを特徴とする、請求項２に記載の話速変換倍率決定装置。
　前記物理指標算出部は、入力信号のパワースペクトルを算出し、第１の周波数帯域における正規化パワー、及び第１の周波数帯域よりも高い第２の周波数帯域における正規化パワーを算出する周波数帯域分割・パワー演算部と、前記第１の周波数帯域及び前記第２の周波数帯域における正規化パワーの比を算出する分割帯域パワー比算出部を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記第１の周波数帯域及び第２の周波数帯域における正規化パワーの比を前記物理指標として出力することを特徴とする、請求項２に記載の話速変換倍率決定装置。
　前記話速変換倍率指定部は、前記物理指標、及び前記物理指標それぞれの話速に対する寄与率に基づいて、前記話速変換倍率を算出することを特徴とする、請求項２～６のいずれか一項に記載の話速変換倍率決定装置。
　入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、入力信号の全体又は各部分の時間長が前記再生すべき時間長に適合するように前記話速変換倍率を微調整して最終話速変換倍率を決定する話速変換倍率微調整部を更に備えることを特徴とする、請求項７に記載の話速変換倍率決定装置。
　入力信号の適応的な話速変換を行う話速変換装置であって、
　請求項８に記載の話速変換倍率決定装置と、前記話速変換倍率に従って入力信号を話速変換する話速変換部と、を備え、
　前記話速変換部は、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、一定の時間間隔ごとに、一様な倍率で伸縮させた時に出力されるべき目標信号と、入力信号を前記話速変換倍率により変換した変換信号とを、信号の時系列上で比較して時間的なずれ量を算出し、
　前記話速変換倍率微調整部は、前記時間的なずれ量に応じてその後の話速変換倍率を再調整することを特徴とする話速変換装置。
　入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置として構成するコンピュータに、
　入力信号の有音区間と無音区間とを判別するステップと、
　前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間と、該基本周波数の値が所定の変化幅を超えて変化する不安定区間とを決定するステップと、
　前記安定区間において、前記基本周波数の時間変化を平滑化するステップと、
　前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、基本周波数を内挿した擬似基本周波数を算出するステップと、
　前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得るステップと、
　前記基本周波数の概形の標本値に応じて、入力信号に指定すべき話速変換倍率を算出するステップと、
を実行させるためのプログラム。
　請求項１０に記載のプログラムを記録した記録媒体。