WO1998021710A1

WO1998021710A1 - Convertisseur de rapidite de reproduction de sons

Info

Publication number: WO1998021710A1
Application number: PCT/JP1997/004077
Authority: WO
Inventors: Naoya Tanaka; Hiroaki Takeda
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 1996-11-11
Filing date: 1997-11-10
Publication date: 1998-05-22
Also published as: ES2267135T3; CA2242610C; DE69736279T2; CN1208490A; KR19990077151A; AU4886397A; DE69736279D1; KR100327969B1; CN1163868C; JP3891309B2; US6115687A; EP0883106A1; EP0883106A4; EP0883106B1; CA2242610A1

Description

明細書音声再生速度変換装置技術分野

本発明は、ディジタル化された音声信号を音声のピッチ（音程）を変化させずに任意の速度で再生する音声再生速度変換装置に関するものである。

本明細書では「音声」及び「音声信号」を、人間の発する音声だけではなく、楽器等から発せられるすべての音響信号を表すものとして使用する。背景技術

音声のピッチを変化させずにその再生速度を任意の速度に変換する方法の 1 つとして、 P I COLA (Pointer Interval Control OverLap and Add) 方式がある。 P I COLA方式の原理は、森田直孝、板倉文忠、「ポインタ移動量制御による重複加算法（P I COLA) を用いた音声の時間軸上での伸長圧縮とその評価」、日本音響学会講演論文集卜 4- 14 (1988年 3月）に紹介されている。また、 P I COLA方式を、フレーム単位に分割された音声信号に対して適用し、少ないバッファメモリで再生速度変換を実現する方法が、特開平 8— 13 7491号に開示されている。

図 9に従来の P I COLA方式による音声再生速度変換装置のブロック図を示す。同図に示された音声再生速度変換装置では、ディジタル化された音声信号が記録媒体 1に記録されており、フレ一ミング部 2が記録媒体 1から音声信号をあらかじめ決められた長さ L Fサンプルのフレーム単位で取り出す。フレ一ミング部 2によって取り出された音声信号は、バッファメモリ 3に一時的に保持される一方で、ピッチ周期算出部 6へ与えられる。ピッチ周期算出部 6は、音声信号のピッチ周期 T pを算出して波形重ね合わせ部 4へ与えると共に処理開始位置ポインタをバッファメモリ 3へ保存する。波形重ね合わせ部 4は、入力音声のピッチ周期を用いてバッファメモリ 3に保持されている音声信号の波形を重ね合わせ、重ね合わせ波形を波形合成部 5へ出力する。波形合成部 5は、バッファメモリ 3に保持されている音声信号波形と波形重ね合わせ部 4によつて算出された重ね合わせ波形とから出力音声信号波形を合成して出力音声を出力する。

この音声再生速度変換装置は、次のような処理により音程を変えずに再生速度を変換する。

まず、高速再生を行なう時の処理方法を図 10及び図 1 1を用いて説明する。図において、 P 0は、波形の重ね合わせ処理が行なわれるフレームの先頭を表わすポインタである。波形重ね合わせ処理は、音声のピッチ周期 Tpの 2周期分の長さ LWサンプルを処理フレームとする。また、 Lは、入力音声の速度を 1として、所望再生速度が rで与えられたとき、

L = Tp { \/ (r - 1) } (1) で与えられるサンプル数である。この Lは出力波形（c) の長さに対応するサンプルであり、後述するように、 Tp + Lサンプルの入力音声が Lサンプルの出力音声として再生される。従って、 r= (Tp + L) ZLとなり、（1) の関係が導出される。

記録媒体 1からフレーミング部 2によって切り出された入力音声は、バッファメモリ 3に蓄えられる。同時に、ピッチ周期算出部 6は、入力音声のピッチ周期 Tpを算出し、波形重ね合わせ部 4に入力する。また、ピッチ周期算出部 6は、ピッチ周期 Tpから（1) 式を用いて Lを算出し、次の処理開始位置 P 0 ' を決定し、バッファメモリ上のポインタとして、バッファメモリ 3に引き渡す。波形重ね合わせ部 4は、バッファメモリ 3から、ポインタ P 0が示す処理開始位置から波形重ね合わせ処理フレーム LW (=2Tp) サンプルの波形を切り出し、処理フレームの前半部分（波形 Α) に対しては、時間軸方向に減少する三角窓、後半部分（波形 Β) に対しては、時間軸方向に増加する三角窓を掛けたのち、波形 Αと波形 Βを加算し、重ね合わせ波形 Cを算出する。

波形合成部 5は、図 10に示す入力信号波形（a) から、波形重ね合わせ処理フレームの波形（波形 A +波形 B) を切り取り、代わりに図 10に示す重ね合わせ波形（波形 c) を挿入する。その後、入力波形上で（P O+Tp + L) 点の位置を示す P 0 ' (合成波形上でば波形 Cの先頭 + L点の位置を示す P 1 ) まで、入力音声波形 Dを継ぎ足す。なお、 r〉2のときは、 P 1は波形 C上に存在することになるが、この場合は、波形 Cを P 1の示す位置まで出力する。この結果、合成された出力波形（c) の長さは Lサンプルとなり、 Tp + L サンプルの入力音声が Lサンプルの出力音声として再生されることになる。次の波形重ね合わせ処理は、入力波形上の P 0' 点から行なう。

図 1 1は、図 10を用いて説明した上記の処理について、バッファメモリ 3 に保持された音声信号と、フレーミング部 2によるフレーミングとの関係を示した図である。

本来、バッファメモリ 3上において、波形重ね合わせ処理に必要なバッファ長は、入力音声の最大ピッチ周期 Tpmaxの 2周期分である。しかし、入力音声が、あらかじめ定められたフレーム長 L Fサンプル毎に区切られて入力されるため、処理開始位置 P 0は入力音声の先頭フレーム内の、任意の位置を取ることとなり、また、バッファ長は入力フレーム長の整数倍でなければならないことから、バッファ長は（LF+ 2Tpmax)以上で L Fの倍数のうち最小のものということになる。例えば、入力フレーム長 LFが 160サンプル、ピッチ周期の最大値 Tpmaxが 145ならばッファ長は 3 L F = 480サンプル必要となる。

バッファメモリ上での処理は、 L Fサンプルの入力がある毎にバッファメモリの内容をシフトして行き、処理開始位置 P 0が先頭フレーム内に入ったときのみ、波形重ね合わせの処理を行なえばよい。それ以外のときは、入力信号がそのまま出力信号となる。

次に、低速再生を行なう方法について、図 12を用いて説明する。

高速再生の場合と同様に、 P 0は波形重ね合わせ処理フレームの先頭を表わすポインタである。波形重ね合わせ処理は、音声のピッチ周期 Tpの 2周期分の長さ LWサンプルを処理フレームとする。また、 Lは、入力音声の速度を 1 として、所望再生速度が rで与えられたとき、

L = Tp { τ / ( 1 - r) } (2) で与えられるサンプル数である。低速再生の場合は、後述するように、 Lサンプルの入力音声が T p + Lサンプルの出力音声として再生されることになる。従って、 r=LZ (Tp + L) となり、（2) の関係が導出される。

波形重ね合わせ部 4は、処理フレームの前半部分（波形 A) に対しては、時間軸方向に増加する三角窓、後半部分（波形 B) に対しては、時間軸方向に減少する三角窓を掛けたのち、波形 Aと波形 Bとを加算し、重ね合わせ波形 Cを算出する。

波形合成部 5は、図 12に示す入力信号波形（a) の波形 Aと波形 Bとの間に、重ね合わせ波形（波形 C) を挿入する。その後、入力波形上で P 0+L点の位置を示す P 0 ' (合成波形上でば波形 Cの先頭 +L点の位置を示す P 1) まで、入力音声波形 Bを継ぎ足す。 r>0. 5のときは、 P 1は波形 B上ではなく、重ね合わせ処理フレームに続く波形 D上に存在ことになるが、この場合は、波形 Dを P 0' の示す位置まで出力する。

この結果、合成された出力波形（c) の長さは Tp + Lサンプルとなり、 L サンプルの入力音声が T ρ + Lサンプルの出力音声として再生されることになる。また、次の波形重ね合わせ処理は、入力波形上の P 0 ' 点から行なう。バッファメモリ 3に保持された音声信号と、フレ一ミング部 2によるフレーミングとの関係は、高速再生の場合と同じである。

ところで、前述した音声再生速度変換装置は、入力音声のピッチ周期を求め、そのピッチ周期に基づいて波形の重ね合わせを行なっている。ピッチ周期で区切られた入力音声はピッチ波形と呼ばれ、一般にピッチ波形同士は非常に類似度が高いため、波形重ね合わせ処理に用いるのに適している。

しかしな力ら、ピッチ周期に算出誤りが含まれると、隣接するピッチ波形間の誤差が増大し、結果として波形重ね合わせ後の出力音声の品質が低下する問題が生じる。ピッチ周期の算出誤りが発生する主な原因として次のようなことが考えられる。一般に、算出されたピッチ周期は、入力音声のある一部区間（ピツチ周期分析区間という）を代表するピッチ周期であり、ピッチ周期分析区間内でピッチ周期が急激に変化している場合には、算出されたピッチ周期と、実際のピッチ周期との誤差が大きくなるためである。従って、出力音声の品質が低下するのを抑えるためには、波形重ね合わせ処理位置における最適なピッチ波形を求める必要がある。発明の開示

本発明は以上のような実情に鑑みてなされたもであり、音声再生速度変換時の波形重ね合わせによって生じる歪みを低減し、出力音声の品質を向上することができる音声再生速度変換装置を提供することを目的としている。

上記目的を達成するために、本発明は、入力音声信号または入力残差信号において、隣接する長さの等しい 2つの波形の誤差が、最も小さくなるような波形を選択し、その 2つの波形を重ね合わせることによって、重ね合わせ波形を算出し、その重ね合わせ波形を入力音声信号または入力残差信号の一部と置き換え、あるいは、挿入することにより、音声の再生速度変換を実現している。本発明によれば、重ね合わせる波形を的確に選択することができるため、速度変換した音声の品質が向上する。

また、本発明は、音声信号を、スペクトル情報を表わす線形予測係数、ピッチ周期情報、及び予測残差を表わす音源情報に分離して符号化する音声符号化装置のデコーダと組み合わせて、音声符号化装置からの出力情報を利用する。本発明によれば、音声符号化装置からの出力情報を利用することにより、符号化された音声信号の再生速度変換の計算コストを大幅の下げることができる。本発明は、ディジ夕ル化された入力音声信号を一時的に保持するバッファメモリと、バッファメモリに保持された音声信号の波形を重ね合わせる波形重ね合わせ部と、バッファメモリ内の入力音声波形と重ね合わせ音声波形とから出力音声波形を合成する波形合成部とを具備する音声再生速度変換装置において、バッファメモリから隣接する等しい長さの 2つの音声波形を切り出す波形切り出し部と、波形切り出し部によって切り出された 2つの音声波形の間の誤差を算出する誤差算出部とを設け、波形重ね合わせ部が、誤差算出部によって算出された誤差が最小になる 2つの音声波形を選択して重ね合わせるように構成したものである。

また、本発明は、入力音声信号のスぺクトル情報を表わす線形予測係数を算出する線形予測分析部と、算出された線形予測係数を利用して入力音声信号から予測残差信号を算出する逆フィル夕と、線形予測係数を利用して予測残差信号から音声信号を合成する合成フィル夕とを備え、逆フィル夕の算出した予測残差信号をバッファメモリに保持し、波形合成部が合成した予測残差信号を合成フィル夕に出力するように構成したものである。

これにより、ピッチ波形の見極めが容易な予測残差信号を用いて再生速度変換処理を行なうことができ、ピッチ波形を正確に切り出すことができ、再生音声の品質が向上する。

また、本発明は、音声信号を、スペクトル情報を表わす線形予測係数とピッチ周期情報と予測残差を表わす音源情報とに分離して符号化する音声符号化装置と組み合せた構成であり、バッファメモリが予測残差を表わす音源情報を一時的に保持し、波形切り出し部がピッチ周期情報を基にバッファメモリから切り出す音声波形の長さの範囲を設定するようにしたものである。

また、本発明は、音声信号を、スペクトル情報を表わす線形予測係数とピッチ周期情報と予測残差を表わす音源情報とに分離して符号化する音声符号化装置と組み合わせた構成であり、バッファメモリが復号音声信号を一時的に保持し、波形切り出し部がピッチ周期情報を基にバッファメモリから切り出す音声波形の長さの範囲を設定するようにしたものである。

また、本発明は、入力音声信号のスペクトル情報を表す線形予測係数を算出する線形予測分析部と、算出された線形予測係数を利用して入力音声信号から予測残差信号を算出する逆フィル夕と、線形予測係数を補間する線形予測係数補間部と、線形予測係数を利用して予測残差信号から音声信号を合成する合成フィル夕とを備え、バッファメモリが逆フィル夕によって算出された予測残差信号を一時的に保持し、波形合成部は合成した予測残差信号を前記合成フィル夕に出力し、線形予測係数補間部は合成された予測残差信号に対して最適になるように線形予測係数を補間し、合成フィルタは補間された線形予測係数を利用して出力音声信号を合成する様に構成したものである。

これにより、合成された予測残差信号に対して最適になるように補間された線形予測係数を用いて出力音声信号が合成されるため、音声品質が向上することになる。図面の簡単な説明

図 1は、第 1の実施の形態にかかる音声再生速度変換装置のブロック図、図 2は、第 1の実施の形態で再生速度変換対象となる音声信号の波形図、図 3は、第 2の実施の形態にかかる音声再生速度変換装置のプロック図、図 4は、第 3の実施の形態にかかる音声再生速度変換装置のプロック図、図 5は、第 4の実施の形態にかかる音声再生速度変換装置のブロック図、図 6は、第 5の実施の形態にかかる音声再生速度変換装置のプロック図、図 7は、処理フレーム位置、窓形状と重み及び重ね合わせ処理の関係図、図 8は、第 6の実施の形態にかかる音声再生速度変換装置のプロック図、図 9は、従来の音声再生速度変換装置のブロック図、

図 1 0は、高速再生の場合の入力波形、重ね合わせ波形、出力波形の関係図、図 1 1は、フレーミングされた入力信号、バッファメモリ内の入力信号、シフト後のバッファメモリ内の入力信号の関係図、及び

図 1 2は、低速再生の場合の入力波形、重ね合わせ波形、出力波形の関係図である。発明を実施するための最良の形態

以下、本発明の実施の形態について図面を参照して具体的に説明する。

(第 1の実施の形態）

図 1に、第 1の実施の形態にかかる音声再生速度変換装置の機能ブロックが示されている。なお、前述した図 9に示された装置の各部と同一機能を有する部分には同一符号を付している。

この音声再生速度変換装置では、波形切り出し部 7がバッファメモリ 3に波形を切り出す開始位置と切り出す波形の長さとを与えて、隣接する同じ長さの 2つの音声波形をバッファメモリ 3から切り出し、誤差算出部 8が波形切り出し部 7によって切り出された 2つの音声波形間の誤差を算出し、且つ誤差が最小となる長さの波形を選択し、重ね合わせ処理フレームを決定する。そして、波形重ね合わせ部 9が誤差算出部 8で決定した 2つの波形を重ね合わせる。なお、前述の図 9に示された装置と同様に、記録媒体 1にディジタル化された音声信号が記録され、レーミング部 2が音声信号をあらかじめ決められた長さ L Fサンプルのフレーム単位で記録媒体 1から取り出し、フレーミング部 2 によつて取り出された音声信号を一時的にバッファメモリ 3に保持する。また、波形合成部 5がバッファメモリ 3に保持されている音声信号波形と波形重ね合わせ部 9によって算出された重ね合わせ波形とから出力音声信号波形を合成する。

この装置の記憶媒体 1、フレーミング部 2、バッファメモリ 3、波形重ね合わせ部 9、波形合成部 5の機能及び再生速度変換の処理は、従来の装置と同じであるので説明を省略し、波形切り出し部 7、誤差算出部 8の機能と、重ね合わせ処理フレームの決定プロセスについて主に説明する。

波形切り出し部 7は、図 2に示すように、重ね合わせ処理フレーム候補波形 1 9として、ノッファメモリ 3力、ら、処理開始位置ポインタ P 0から隣接する同じ長さ T cの 2つの音声波形（波形 Aと波形 B ) を切り出す。

誤差算出部 8は、波形 Aと波形 Bとの 2つの波形間の誤差を算出する。 2つの波形間の誤差 E r rは、波形 Aを X ( n ) 、波形 Bを y ( n ) 、 nをサンプル点として、次式のように表わされる。

E r r =∑ { x ( n ) - y ( η ) } ² ( 3 )

(∑は η = 0から T c一 1まで加算）

誤差算出部 8は、処理開始位置ポインタ P 0を固定したまま、ポインタ P 0 より切り出す連続する 2つの波形 A, Bの長さ（サンプル数）を異ならせて別の 2つの波形 A， Bをバッファメモリ 3から読み出して波形間の誤差 E r rを計算する。処理開始位置ポインタ P 0を固定したまま、 2つの波形 A， Bの長さ（サンプル数）を順次異ならせて誤差 E r rを計算する。そして、誤差 E r rが最小になる波形 A， Bの組み合せを選択する。

ここで、 E r rは波形の長さ T cサンプルにおける積算誤差であるため、長さ T cの異なる波形に対する誤差同士を直接比較することはできない。そこで、例えば、誤差 E r rをサンプル数で T cで割り算した値、つまり、 1サンプル点に対する平均誤差 E r r ZT cを用いることにより、誤差の比較が可能となる。波形の長さ T cは、あらかじめ、取る値の範囲が定められており、例えば、 8 k H zサンプリングの音声信号に対しては 1 6から 1 6 0サンブル程度でよい。波形の長さ T cを定められた範囲内で変化させ、それぞれの T cに対して、平均誤差 E r r ZT cを算出し、それらを比較して、平均誤差を最小にする T cが求める波形の長さとなる。

波形重ね合わせ部 9では、誤差算出部 8から選択した 2つの波形 A， Bを重ね合わせ処理フレーム 1 4として取込み、処理フレーム（波形 A) と処理フレーム（波形 B ) とに別々の三角窓を掛けた上で、両者を重ね合わして重ね合わせ波形 1 5を生成する。

波形合成部 5では、バッファメモリ 3から入力音声波形 1 6を取込むと共に、再生速度 rに基づいて重ね合わせ波形 1 5を入力音声波形 1 6の一部と交換又は挿入して速度変換された出力音声 1 7を発生させる。

このように本実施の形態によれば、波形切り出し部 7がバッファメモリ 3から波形合成候補となる隣接する一対の波形 A， Bを切り出し、切り出し対象となる波形の長さを徐々に変化させて、各波形対における波形間の誤差 E r r / T cを計算し、誤差 E r r ZT cが最も小さくなる波形 A， Bの組を合成対象とするので、波形 A, Bの重ね合わせによって生じる歪みを低減し、出力音声の品質を向上させることができる。 (第 2の実施の形態）

第 2の実施形態は、ピッチ波形が顕著に現れる残差信号によって再生速度変換処理を行なう例である。

図 3に、第 2の実施形態にかかる音声再生速度変換装置の機能プロックを示す。なお、前述した図 1及び図 9に示された装置の各部と同一機能を有する部分には同一符号を付している。

この音声再生速度変換装置は、入力音声信号のスぺクトル情報を表わす線形予測係数を算出する線形予測分析部 3 0と、算出された線形予測係数を利用して入力音声信号から予測残差信号を算出する逆フィル夕 3 1と、線形予測係数を利用して予測残差信号から音声信号を合成する合成フィル夕 3 2とを備えている。本実施の形態にかかる音声再生速度変換装置のその他の構成は第 1の実施の形態と同じである。

以上に様に構成された音声再生速度変換装置では、フレ一ミング部 2によつて切り出されたフレーム単位の入力音声 1 2が線形予測分析部 3 0と逆フィル夕 3 1へ入力される。線形予測分析部 3 0ではフレーム単位の入力音声 1 2から線形予測係数 3 3が算出され、逆フィルタ 3 1では線形予測係数 3 3を用いて、入力音声 1 2から残差信号 3 4が算出される。

逆フィル夕 3 1にて算出される残差信号 3 4は、ノッファメモリ 3、波形切り出し部 7、誤差算出部 8、及び波形重ね合わせ部 9にて、第 1の実施の形態で説明した再生速度変換処理により波形合成され、波形合成部 5より合成残差信号 3 5として出力される。

合成フィルタ 3 2は、線形予測分析部 3 0から与えられる線形予測係数 3 3 を用いて、合成残差信号 3 5から出力合成音声 3 6を算出して出力する。このように本実施の形態は、入力音声信号から線形予測係数によって表わされるスぺクトル包絡情報を取り除いた信号である予測残差信号から 2つの波形 A， Bを切り出して波形合成する。予測残差信号は元の入力信号よりもピッチ波形が顕著に現れる特性があるので、本実施の形態のように残差信号上で再生速度変換処理を行なうことによって、ピッチ波形を正確に切り出すことができ、再生音声の品質を向上することができる。

(第 3の実施の形態）

第 3の実施形態は、音声再生速度変換装置を音声符号化装置と組み合わせ、前記音声符号化装置から出力される音声符号化情報を速度変換処理で利用することにより、演算量の削減を行なっている。

図 4に、本実施の形態にかかる音声再生速度変換装置の機能プロックが示されている。なお、前述した図 1、図 3及び図 9に示された装置の各部と同一機能を有する部分には同一符号を付している。

この音声再生速度変換装置は、第 2の実施の形態における記憶媒体 1、フレ一ミング部 2、線形予測分析部 3 0及び逆フィル夕 3 1の各部を、それら各機能を備えた音声符号化装置のデコーダ 4 0で置き換えたものである。音声符号化装置のデコーダ 4 0は、音声信号を、スペクトル情報を表わす線形予測係数とピッチ周期情報と予測残差を表わす音源情報とに分離して符号化する機能を有する。このような音声符号化装置の代表としては C E L P (Code Exc i ted L i near Predic t i on cod ing)がある。また一般に、 C E L Pに代表される高能率音声符号化装置では、各符号化情報はフレーム単位で符号化されている。従って、デコーダ 4 0から出力される音源信号 4 1は、音声符号化装置で定められた長さのフレーム単位の信号であり、本発明の音声再生速度変換装置の入力として、直接使用することができる。

本実施の形態にかかる音声再生速度変換装置では、デコーダ 4 0から出力されるフレーム単位の音源信号 4 1をバッファメモリ 3へ格納し、ピッチ周期情報 4 2を波形切り出し部 4 3に入力し、さらに線形予測係数 3 3を合成フィル夕 3 2へ入力する。

波形切り出し部 4 3では、第 1の実施の形態と同様にしてバッファメモリ 3 から長さ T cの隣接する波形 A, Bを切り出し、長さ T cを順次異ならせて複数組の波形 A， Bを誤差算出部 8へ供給する。しかも、波形切り出し部 4 3は切り出す波形の長さ T cのとる値の範囲を、ピッチ周期情報 4 2に応じて変えることにより、誤差算出に要する演算量を大幅に削減することができる。また、デコーダから出力された線形予測係数 3 3は合成フィルタ 3 2の入力として用いる。

このように、音声信号をスペクトル情報を表わす線形予測係数と、ピッチ周期情報と、予測残差を表わす音源情報とに分離して符号化する音声符号化装置のデコーダと、本発明の音声再生速度変換装置とを組み合わせることにより、音声符号化装置から出力される情報を利用して、音声符号化装置が符号化した音声信号の再生速度変換を少ない演算量で実現することができる。

(第 4の実施の形態）

第 4の実施形態の音声再生速度変換装置は、音声符号化装置と組み合わせ、前記音声符号化装置から出力される音声符号化情報を利用することにより、演算量の削減を行なっている。

図 5に、本実施の形態にかかる音声再生速度変換装置の機能プロックを示している。なお、前述した第 3の実施の形態の各部と同一機能を有する部分には同一符号を付している。

この音声再生速度変換装置は、第 3の実施の形態に備えた合成フィル夕 3 2 と同一機能を有する合成フィル夕 3 2 ' を、音声符号化装置のデコーダ 4 0とバッファメモリ 3との間に配置している。合成フィル夕 3 2 ' がフレーム単位の音源信号 4 1と線形予測係数 3 3とから復号音声信号を生成して合成音声信号 4 4としてバッファメモリ 3に保存する。デコーダ 4 0から音源信号 4 1がフレーム単位で入力されるため、合成音声信号 4 4もフレーム単位の信号となり、従って、本発明の音声再生速度変換装置の入力として直接使用することができるものである。

このように、音声信号を、スペクトル情報を表わす線形予測係数と、ピッチ周期情報と、予測残差を表わす音源情報に分離して符号化する音声符号化装置と、本発明の音声再生速度変換装置とを組み合わせることにより、音声符号化装置から出力される情報を利用して、音声符号化装置が符号化した音声信号の再生速度変換を、少ない演算量で実現することができる。

(第 5の実施の形態）

第 5の実施の形態は、線形予測係数を合成された予測残差信号に対して最適になるように補間することにより、音声品質を向上させる音声再生速度変換装置である。

図 6に、本実施の形態にかかる音声再生速度変換装置の機能プロックを示す。なお、前述した各実施の形態の各部と同一機能を有する部分には同一機能を付している。

この音声再生速度変換装置は、入力音声信号のスぺクトル情報を表わす線形予測係数を算出する線形予測分析部 3 0と、算出された線形予測係数 3 3を利用して入力音声信号から予測残差信号 3 4を算出する逆フィルタ 3 1と、線形予測係数を利用して入力音声信号から音声信号を合成する合成フィルタ 3 2と、線形予測係数 3 3を合成された予測残差信号に対して最適になるように補間する線形予測係数補間部 6 0とを備えている。その他の構成については、第 1の実施の形態（図 1 ) と同じである。

この音声再生速度変換装置では、フレ一ミング部 2によって記録媒体 1から切り出されたフレーム単位の入力音声 1 2が線形予測分析部 3 0へ与えられる。線形予測分析部 3 0は、フレーム単位の入力音声 1 2から線形予測係数 3 3を算出して逆フィルタ 3 1及び線形予測係数補間部 6 0へ出力する。逆フィルタ 2 1は、線形予測係数 3 3を用いて入力音声 1 2から残差信号 3 4を算出する。この残差信号 3 4は、第 1の実施の形態で説明した再生速度変換処理により波形合成され、波形合成部 5より合成残差信号 3 5として出力される。

線形予測係数補間部 6 0は、波形合成部 4から処理フレーム位置情報 6 1を受け取り、線形予測係数 3 3を合成残差信号 3 5に対して最適になるように補間する。補間された線形予測係数 6 2は、合成フィルタ 3 2に入力され、合成残差信号 3 5から、出力音声信号 3 6が合成される。

ここで、線形予測係数 3 3を合成残差信号 3 5に対して最適になるように補間する方法の一例について図 7を参照しながら説明する。

図 7 ( a ) に示すように、合成残差信号 3 5を算出するための処理フレーム力入力フレーム 1、 2、 3にまたがっているのもとする。このとき波形重ね合わせに用いる窓の形状は図 7 ( b )に示すような窓形状と重みであるとする。したがって、図 7 ( c ) に示すように重ね合わせ処理によって生成される重ね合わせ波形に含まれるデ一夕量は、区間 F l、 F 2、 F 3に含まれるデータ量を窓形状を考慮した重み w l、 w2、 w3によって重み付けしたものとなる。この重ね合わせ波形に含まれる元のデ一夕量を基準にすれば、補間された線形予測係数 6 2は次のように求められる。

(補間線形予測係数） = (フレーム 1の線形予測係数） X (重み wl )

+ (フレーム 2の線形予測係数） X (重み w2) + (フレーム 3の線形予測係数） X (重み w3) ただし、 w l +w2 + w3= l

なお、重み w l、 w2、 w3については、窓形状を考慮するだけではなく、フレ —ム 1、 2、 3それぞれの線形予測係数の類似度等を考慮に入れても良い。また、算出する補間線形予測係数は 1つである必要はなく、重ね合わせ波形を複数の部分に分割し、それぞれの部分の対して最適な補間線形予測係数を求めても良い。また、線形予測係数を補間する処理においては、各線形予測係数を補間処理に適する L S Pパラメ一夕等に変換し、変換した L S Pパラメ一夕等に対して補間処理を行い、算出後に線形予測係数に再変換することにより性能を向上させる事が出来る。

(第 6の実施の形態）

第 6の実施の形態にかかる音声再生速度変換装置は、音声符号化装置と組み合わせて使用され、音声符号化装置から出力される音声符号化情報を利用することにより、演算量の削減を行っている。

図 8に、本実施の形態にかかる音声再生速度変換装置の機能プロックを示す。この音声再生速度変換装置は、第 5の実施の形態の記憶媒体 1およびフレーミング部 2に替えて、第 3の実施の形態で用いた、音声信号をスペクトル情報を表わす線形予測係数と、ピッチ周期情報と、予測残差を表わす音源情報とに分離して符号化する音声符号化装置（デコーダ 4 0 ) が配置されている。

デコーダ 4 0から出力されるフレーム単位の音源信号 4 1はバッファメモリ 3に入力し、線形予測係数 3 3は線形予測係数補間部 6 0に入力される。また、ピッチ周期情報 4 2は波形切り出し部 4 3に入力され、波形切り出し部 4 3が切り出す波形の長さ T cの取る値の範囲が、ピッチ周期情報 4 2に応じて切り換えらる。これにより、切り出す波形の長さ T cの値の範囲が制限されるため、誤差算出に要する演算量を大幅に削減することができる。 ' このように本実施の形態によれば、音声信号をスぺクトル情報を表わす線形予測係数と、ピッチ周期情報と、予測残差を表わす音源情報とに分離して符号化する音声符号化装置と、本発明の音声再生速度変換装置とを組み合わせることによって、音声符号化装置から出力される情報を利用して、音声符号化装置が符号化した音声信号の再生速度変換を少ない演算量で実現することができる。 (第 7の実施の形態）

本発明の音声再生速度変換装置は、その処理のアルゴリズムをプログラミング言語によって記述し、ソフトウェアとして実現することができる。プロダラムをフロッピディスク等の記憶媒体に記録しておき、パーソナルコンピュータ等の汎用信号処理装置に記憶媒体を接続して、プログラムを実行させることにより、本発明の音声符号化装置の機能を実現することができる。

本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で変形実施可能である。産業上の利用可能性

以上のように、本発明にかかる音声再生速度変換装置は、記録媒体に記録された音声信号を音声のピッチ（音程）を変化させずに任意の速度で再生するのに有用であり、出力音声の品質の向上を図るのに適している。

Claims

請求の範囲

1 . 入力音声信号の音声波形内から隣接していて長さが等しく波形間誤差が最も小さい 2つの音声波形を選択する波形選択手段と、前記波形選択手段で選択された 2つの音声波形を重ね合わせる波形重合手段と、重ね合わされた音声波形を前記入力音声の音声波形の一部と置き換え又は挿入して速度変換された出力音声波形を生成する波形合成手段と、を具備する音声再生速度変換装置。

2 . 請求項 1記載の音声再生速度変換装置において、

前記波形選択手段は、

前記入力音声信号の音声波形デ一夕が格納されたバッファメモリから隣接し且つ長さの等しい 2つの音声波形を音声波形の長さを各組毎に異ならせて複数組切り出す切出し手段と、前記バッファメモリから切り出された音声波形の各組から波形間誤差が最も小さい音声波形の組を検出する手段と、を有する音声再生速度変換装置。

3 . 請求項 1記載の音声再生速度変換装置において、

前記波形選択手段は、

前記入力音声信号の音声波形データとしてピッチ波形が顕著に現われる予測残差信号の波形データを用いることを特徴とする音声再生速度変換装置。

4 . 請求項 3記載の音声再生速度変換装置において、

前記入力音声信号のスぺクトル情報を表わす線形予測係数を算出する線形予測分析手段と、算出された線形予測係数を利用して前記入力音声信号から前記予測残差信号を算出する逆フィル夕と、前記線形予測係数を利用して前記波形合成手段から出力される合成残差信号から音声信号を合成する合成フィル夕とを具備する音声再生速度変換装置。

5 . 請求項 4記載の音声再生速度変換装置において、

前記線形予測分析手段の算出した前記線形予測係数を前記合成残差信号に対して最適になるように補間する線形予測係数補間手段を備え、

前記合成フィル夕は、補間された線形予測係数を利用して出力音声信号を合成することを特徴とする音声再生速度変換装置。

6 . 請求項 1記載の音声再生速度変換装置において、

音声信号を、スペクトル情報を表わす線形予測係数、ピッチ周期情報、及び予測残差を表わす音源情報に分離して符号化する音声符号化装置の出力情報を利用して速度変換処理を行うことを特徴とする音声再生速度変換装置。

7 . 請求項 6記載の音声再生速度変換装置において、

前記波形選択手段は、

前記音源情報が格納されたバッファメモリから隣接し且つ長さの等しい 2 つの音声波形を音声波形の長さを各組毎に異ならせて複数組切り出す一方、前記ピッチ周期情報を基に切り出す音声波形の長さの範囲を設定する切出し手段と、前記バッファメモリから切り出された音声波形の各組から波形間誤差が最も小さい音声波形の組を検出する手段と、を有する音声再生速度変換装置。

8 . 請求項 7記載の音声再生速度変換装置において、

前記波形合成手段から出力される合成残差信号が入力され、前記線形予測係数を利用して前記合成残差信号から音声信号を合成する合成フィル夕を備えた音声再生速度変換装置。

9 . 請求項 8記載の音声再生速度変換装置において、

前記音声符号化装置の出力情報に含まれた前記線形予測係数を前記合成残差信号に対して最適になるように補間する線形予測係数補間手段を備え、前記合成フィルタは、補間された線形予測係数を利用して出力音声信号を合成することを特徴とする音声再生速度変換装置。

1 0 . 請求項 6記載の音声再生速度変換装置において、

前記音声符号化装置の出力情報に含まれている音源情報から前記出力情報に含まれている線形予測係数を利用して合成音声信号を合成する合成フィル夕を備え、前記合成音声信号を前記波形選択手段に供給することを特徴とする音声再生速度変換装置。

1 1 . 請求項 1 0記載の音声再生速度変換装置において、

前記波形選択手段は、

前記合成音声信号の波形データが格納されたバッファメモリから隣接し且つ長さの等しい 2つの音声波形を音声波形の長さを各組毎に異ならせて複数組切り出す一方、前記ピッチ周期情報を基に切り出す音声波形の長さの範囲を設定する切出し手段と、前記バッファメモリから切り出された音声波形の各組から波形間誤差が最も小さい音声波形の組を検出する手段と、を有する音声再生速度変換装置。

1 2 . 入力音声信号の音声波形内から隣接していて長さが等しく波形間誤差が最も小さい 2つの音声波形を選択するステツプと、選択された 2つの音声波形を重ね合わせるステップと、重ね合わされた音声波形を前記入力音声の音声波形の一部と置き換え又は挿入して速度変換された出力音声波形を生成するステツプと、を具備する音声再生速度変換方法。

1 3 . 請求項 1 2記載の音声再生速度変換方法において、

前記入力音声信号の音声波形データが格納されたバッファメモリから隣接し且つ長さの等しい 2つの音声波形を音声波形の長さを各組毎に異ならせて複数組切り出すステップと、前記バッファメモリから切り出された音声波形の各組から波形間誤差が最も小さい音声波形の組を検出するステップと、を有する音声再生速度変換方法。

1 4 . コンピュータによる読み取りの可能な媒体と、入力音声信号の音声波形内からコンピュータ ·プロセッサに隣接していて長さが等しく波形間誤差が最も小さい 2つの音声波形を選択させる第 1のプログラム命令手段と、選択された 2つの音声波形を重ね合わせる処理をコンピュータ ·プロセッサに実行させる第 2のプログラム命令手段とを具備し、

各プログラム命令手段が実行可能な形式で前記媒体に記憶されていて、関連したプロセッサによる実行の際にコンピュータ ·メモリにロードされてコンピュー夕を動かすコンピュータ ·プログラム製品。

1 5 . 請求項 1 4記載のコンピュータ ·プログラム製品において、

前記第 1のプログラム命令手段は、

前記入力音声信号の音声波形デ一夕が格納されたバッファメモリから隣接し且つ長さの等しい 2つの音声波形をコンピュータ ·プロセッサに音声波形の長さを各組毎に異ならせて複数組切り出させる第 3のプログラム命令手段と、前記バッファメモリから切り出された音声波形の各組から波形間誤差が最も小さい音声波形の組をコンピュータ ·プロセッサに検出させる第 4のプログラム命令手段とを具備するコンピュータ ·プログラム製品。