WO1998041976A1

WO1998041976A1 - Procede et dispositif permettant de modifier la vitesse des sons vocaux

Info

Publication number: WO1998041976A1
Application number: PCT/JP1998/001063
Authority: WO
Inventors: Tohru Takagi; Nobumasa Seiyama; Atsushi Imai; Akio Ando
Original assignee: Nippon Hoso Kyokai
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 1998-09-24
Also published as: DE69816221D1; NO985301L; JPH10257596A; EP0910065B1; JP2955247B2; NO985301D0; KR20000010930A; KR100283421B1; US6205420B1; DE69816221T2; CA2253749C; CN1101581C; EP0910065A4; CN1219264A; NO316414B1; CA2253749A1; DK0910065T3; EP0910065A1

Description

明細書話速変換方法およびその装置技術分野

本発明は、テレビジョン、ラジオ、テープレコーダ、ビデオテープレコーダ、あるいはビデオディスクプレ一ャなど、各種の映像機器、音響機器、医療機器などで使用される話速変換方法およびその装置に関し、特に発話者の音声を加工して、受聴者の受聴能力に音声スピードをフィットさせた話速変換音声を得る話速変換方法およびその装置に関する。背景技術

一般に、例えば一方の者（発話者）の話を、他方の者 (受聴者）が聞く場合において、加齢や何らかの障害などによって、受聴者の音声識別臨界速度（音声を正確に識別できる最大の話速）などの受聴能力が低下すると、当該受聴者は通常の速さの音声や早口で話される音声を識別することが困難になることが多い。このような場合通常いわゆる補聴器によって上記受聴者の受聴能力を補うようにしてレる。

ところが、このような受聴能力の低下もしくは聴力障害を持つ人のための従来の補聴器は、単に周波数特性の改善、利得制御などによって聴覚系の外耳、中耳の伝達特性のみを補償するものであるため、主として、聴覚中枢の劣化が関与する音声の識別能力の低下を補償することができないという問題があった。

このようなことから、最近は、発話者の音声を加工して、ほぼリアルタィムで受聴者の受聴能力に音声スピードをフイットさせて補聴を行なう話速制御型の補聴装置が考えられている

この話速制御型の補聴装置では、発話者の音声を時間的に伸長する処理を行ない、この伸長処理で得られた音声を出力ッファメモリに逐次、蓄積して出力することにより、発話者の話速を変化（遅く）させ、受聴者の受聴能力の低下を補償する。

しかしながら、上述した従来の話速制御型の補聴器においては、次に述ベるような問題があった。

まず、従来の話速制御型の補聴器は、上述したように入力された音声デ一夕を伸長処理した後、この伸長処理で得られた音声デ一夕を出力バッファメモリに逐次、蓄積してから出力するため、例えば受聴途中で話速を、より遅くしたい場合や元に戻したい場合でも、出力バッファメモリに蓄積されている音声データを全て出力してしまラまで、話速を元に戻すことができない。

このため、受聴途中で話速を戻す際、現在の話速が元に戻るまで、かなり長いタイムディレーが発生してしま

•5 という問題があつた。

また、このような従来の話速制御型の補聴器は、上述したような受聴能力が低下した受聴者のみならず、通常の受聴能力を有する受聴者、例えば外国語を聴取するような場合においても、その受聴能力を補うために、話速を変化（遅く）させる用途にも使用できる。しかし、この場合にも上記同様に、受聴途中で話速を変更する際、タイムディレーが発生してしまうとレゝぅ問題があった。

本発明は上記の事情に鑑み、受聴者の操作に応じて、出力音声の話速を瞬時に追従させることができ、これによって受聴者側の使い勝手を大幅に向上させることができる話速変換方法およびその装置を提供することを目的としている。発明の開示

上記目的を達成するため、請求の範囲第 1 項に記載の発明は、入力された音声デ— 夕に対して、属性に基づく分析処理を施し、この分析処理で得られた情報に基づいて前記音声デ一々所定の時間幅を有するブロック単位に分割し、これをブロック音声デ一夕として蓄積し、前記音声データの時間的な伸長を実現するために、隣り合ぅブロック音声デー夕間において置換または挿入すべき接続デ― タを各プロック毎に生成して蓄積し、受聴者の操作に応じた任意の音声スピ一ドに対応する出力音声デ一夕を生成するためのブロック接続順序を生成し、この接続順序にした ifi つて、既にブロック単位に分割されて蓄積されているブ口ック音声データおよび接続う夕を順次、接続して出力音声デ一夕を生成することを特徴とする。

これにより、受聴者の操作に応じて、出力音声の話速を瞬時に追従させ、受聴者側の使い勝手を大幅に向上させる。

請求の範囲第 2 項に記載の発明は、請求の範囲第 1 項に記載の発明において、前記接続データは、各ブロック毎に、当該ブロックの開始部分にある音声デ一夕、直後ブロックの開始部分にある音声データに対し、所定時間長の間に所定線を有する 2 つの窓を使用してそれぞれ窓掛けを行なった後、直後ブロックの開始部分と、当該ブロックの開始部分とを重複加算することにより、生成されることを特徴とする。

また、上記目的を達成するため、請求の範囲第 3 項に記載の発明は、入力された音声データに対して、属性に基づく分析処理を行なう分析処理部と、この分析処理部の分析結果に応じて音声データを所定の時間幅を有するブロック単位に分割するブロックデータ分割部と、このブロックデータ分割部で分割されたデータをブロック音声データとして蓄積するブロックデータ蓄積部と、前記ブロックデータ分割部で得られた各ブロック音声データを使用して隣り合うブロック音声データ間において置換または挿入可能な接続データを生成する接続データ生成部と、この接続データ生成部で生成された接続デ一夕を蓄積する接続データ蓄積部と、設定された音声スピードに対応する条件に基づき、前記ブ口ック音声テ一夕と BIJ 記接続夕との接続順序を生成する接続順序生成部との接続順序生成部で得られた接続順序に基づき、前記ブ □ ックデ一夕蓄積部に蓄積されているブロック音声デ

つ

― 夕と刖 BC接続デ一夕蓄積部に蓄積されている接続デー夕とを順次、接続して一連の音声データを生成する音声一夕接続部と、を備えたことを特徴とする

請求の範囲第 4 項に記載の発明は、請求の範囲第 3 項に記載の発明において、 HU 己接続デー夕生成部は、各ブ Π ック毎に該ブロックの開始部分にある音声データ後ブ D ックの開始部分にある音声デ— 夕に対し、所定時間長の間に所定線を有する 2 つの窓を使用して窓掛けを行なつた後、直後ブロックの開始部分と、当該ブロックの開始部分とを重複加算することにより、前記接続デ一夕を生成することを特徴とする。

請求の範囲第 5 項に記載の発明は、請求の範囲第 3 項

つ

記載の発明において、刖目 d接続順序生成部は、各属性の時間的な伸長倍率を記憶する書き換え可能なメモリと、所定の時間間隔で、 HU § 書き換え可能なメモリに記されている各属性毎の時間的な伸長倍率を読み出すとともにれらの各伸長倍率、ブロッヮっ夕蓄積部から出力されるブ □ ック長、及び音声デ — 夕接続部から出力される既接続情報に基づき、前記フロック音声データと前記接続つ夕との接続順序を、時々亥 IJ 々、生成する接続順序決定処理部と、を ½ えることを特徴とする。これにより、受聴者の操作に応じて、出力音声の話速を瞬時に追従させ、受聴者側の使い勝手を大幅に向上させる。図面の簡単な説明

図 1 は、本発明による話速変換方法およびその装置の実施の形態となる話速変換装置の一例を示すプロック図である。

図 2 は、図 1 に示す接続データ生成部で行われる接続データの生成過程例を示す模式図である。

図 3 は、図 1 に示す接続順序生成部で行われる接続順序の生成過程例を示す模式図である。発明を実施するための最良の形態

図 1 は、本発明による話速変換装置の実施の形態を示すブロック図である

この図に示す話速変換装置 1 は、入力された音声信号

、、、

アンタリレの音声デ一夕に変換する A / D 変換部 2 と、音声デ一夕の属性を分析する分析処理部 3 と、音声デー夕をブ □ ック単位に分割してブロック音声データを生成するブ □ ックデータ分割部 4 と、プロック音声データを蓄積するブ口ックテ一夕蓄積部 5 と、ブロック音声デー夕を接 jC 9 る際に必要な接続デ一夕を生成する接続デ一夕生成部 6 と、接続データを蓄積する接続データ蓄積部 7 と、ブ口ック音声データと接続デー夕との接続順序を生成する接続順序生成部 8 と、接続順序に基づき、各ブロック音声データと各接続デ一夕とを接続して一連の音声データを生成する音声データ接続部 9 と、一連の音声データを音声信号に変換する D Z A 変換部 1 0 とを備えている。

そして、この話速変換装置 1 は、発話者によって入力された音声データに対して、属性に基づく分析処理を施し、この分析処理で得られた分析情報に応じて、音声デ

— 夕を所定の時間幅を有するブロック単位に分割して蓄積するとともに、音声デー夕の時間的な伸長を実現するために、隣り合うブロック音声デー夕間において置換または挿入すべき音声デ一夕を各ブロック毎に生成して蓄積する。また、受聴者の操作に応じた任意の音声スピードに対応する出力音声デー夕を生成するためのブロック接続順序を生成し、この接続順序にした力 S つて、既にブ □ ック単位に分割されて蓄積されている音声データ（ブロック音声データ ) および既に蓄積されている接続部の置換 · 揷入音声デ一夕（接続データ ) を順次、接続して出力音声デ ― 々を生成することにより、受聴者の操作に応じて、出力音声の話速を瞬時に追従させる

A / D 変換部 2 は、入力された音声信号を所定のサンプリングレ一卜（例えば、 3 2 k H z ) でサンプリングして、 A / D 変換する A Z D 変換回路と、この A / D 変換回路から出力されるデジタルの音尸タを取り込んで記憶するととちに、 F I F 0 形式で出力する F I F 〇メモリとを備えており、入力端子に入力された発話者側の音声信号、例えばマイクロホン、テレビジョン、ラジォあるはその他の映像機器、音響機器などのアナログ音声出力端子から出力される音声信号などの音声信号を取り込んで、 A / D 変換し、これによつて得られた音声デ一夕をバッファリングしながら、分析処理部 3 と、プロックデータ分割部 4 とに供給する。

分析処理部 3 は、 A Z D 変換部 2 から出力される音声デ一夕を取り込む入力処理、この入力処理で得られた音声デ一夕のサンプリングレートを 4 k H z まで落として以後の処理量を低減させるデシメ一シヨン処理、 A ノ D 変換部 2 から出力される音声データおよび前記デシメーシヨン処理で得られた音声データを分析して、有声音、無声音、無音に区分する属性分析処理、この属性分析処理で得られた有声音、無声音、無音毎に、自己相関分析を行なって周期性を検出し、この検出結果に基づき、音声データを分割するのに必要なブロック長（ブロック単位の繰り返しに起因する声の高さの変化、例えば低い声になるなどの不都合を防止するのに必要なブロック長）を決定するブロック長決定処理、を順次行ない、これによって得られた分割情報（有声音、無声音、無音毎のブロック長）をブロックデータ分割部 4 に供給する。

この場合、前記属性分析処理では、 A Z D 変換部 2 から出力される音声データについて、 3 0 m s 前後の窓幅を使用して、データの自乗和を計算し、 5 m s 前後の間隔で、音声デ一夕のパワー値 P を算出するとともに、このノ \° ヮ一値 P と、予め設定されているしきい値 P _m i _n とを比較し、 " P < P _m i _π " を満たす部分を無音区間と判定し、 " P _m i _π ≤ Ρ " を満たす部分を有声音区間、無声音区間と判定する。この後、 A Z D 変換部 2 から出力される音声データに対し、ゼロ交差分析、前記デシメ一ション処理で得られた音声データに対する自己相関分析などを行ない、これらの各分析結果と、パワー値 P とに基づき、音声デ一夕のうち、 " P _{m ; n} ≤ P " を満たす部分が声帯の振動を伴う音声区間（有声音区間）であるか、声帯の振動を伴わない音声区間（無声音区間）であるかを判定する。なお、 A Z D 変換部 2 から出力される音声データの各属性として、雑音や音楽などの背景音という属性も考えられるが、一般的には、雑音や背景音の信号と音声信号とを正確に自動判別することが難しいことから、雑音、背景音も有声音、無声音、無音のいずれかに分類する。

また、前記ブロック長決定処理では、前記属性分析処理で有声音区間と判定された音声データについては、有声音のピッチ周期が分布している 1 . 2 5 m s 〜 2 8 . 0 m s 程度の広い範囲にわたり、長短異なる窓幅の自己相関分析を行なって、できるだけ正確なピッチ周期（声帯の振動周期であるピッチ周期）を検出し、この検出結果に基づき、各ピッチ周期が各々のブロック長となるようにブロック長を決定し、また前記属性分析処理で無声音区間、無音区間と判定された区間については、 1 0 m S 以内の周期性を検出し、この検出結果に基づきブロック長を決定し、これら有声音区間、無声音区間、無音区間の各ブロック長を分割情報としてブロックデータ分割部 4 に供給する。

ブ □ ックデータ分割部 4 は、分析処理部 3 から出力される分割情報で示される有声音区間のブロック長、無声音区間ののブロック長、無音区間のブロック長に基づき A / D 変換部 2 力ら出力される音声データを分割し、この分割処理によって得られたブロック単位の音声データ ( ブ □ ック音声デー夕）と、この音声データのブロック長と、をブロックデ— 夕蓄積部 5 および接続データ生成部 6 に供給する。

ブロックうタ蓄積部 5 は、リングバッファを備えており、ブ口ツク ^ 夕分割部 4 から出力されるブロック音声データ ( ブロック単位の音声デ一夕）と、この音声つ夕のブロック長とを取り込み、これらを前記リングハ、ッファに一時 TS、しながら、一時記憶している各プロック長を適宜、読み出し、これを接続順序生成部 8 に供給するとともに、一時記憶しているブロック音声データ宜、読み出し、これを音声データ接続部 9 に供給する。

また、接続データ生成部 6 は、ブロックデータ分割部 4 から出力されるブロック音声デ一夕を取り込み、各ブロック毎に、図 2 に示す如く、当該ブロックの開始部分にある音声テ一夕、直後ブ Π ックの開始部分にある音声つ夕に対し、時間長 d ( m s ) の間に直線的に変化する A 窓、 B 窓を使用して窓掛けを行なつた後、直後ブ口ックの開始部分と、当該ブ Π ックの開始部分とを重複加

■、、

算し、時間長 d ( m s ) の接続つ— タを生成し、これを接続データ蓄積部 7 に供給する。時間長 d としては、 [ 0 . 5 ( m s ) ] 〜 [ 当該または直後のブ口ックのブ o ック長のうち短い方 ] の値が選択できるが、短い方が接続データ蓄積部 7 のバッファの容量が少なくてすむ。また、接続データ蓄積部 7 は、 U ングバッファを備えており、接 n 1— 夕生成部 6 から出力される接続データを取り込み、これを前記リングハ、ッファに一時憶しな

_

がら、 ~ '時 Pし fe している各接続つ夕を適宜読み出し、これを音声データ接続部 9 に供給する。また、接続順序生成部 8 は、受聴者によつて丁ジ夕リレなどのデジ夕ル - τ

ボリュ一ム器が操作されて入力された、各属性毎の時間的な伸長倍率を記憶する書き換え可能なメモリと、予め設定されている所定の時間間隔、例えば 1 0 0 m s 刖後の時間間隔で、刖記書き換え可能なメモリに記憶されている各属性毎の時間的な伸長倍率をみ出すとともに、これらの各伸長倍率、ブ口ックデー夕蓄積部 5 から出力される各ブ ρ ック長および音 ¹ 7 夕接続部 9 から出力される既接続情報に基づき、各ブロック単位の音声デ一夕と、各ブック単位の接続データとの接続 ^頓序（受聴者が設定した所望の話速を実現するのに必要な接続順序）を時々刻々、生成する接続順序決定処理部とを備えている。

そして、有声音区間、無声音区間、無音区間が順次、入れ替わつて出現する音声信号が入力されている状態で図 3 に示す如く音声データ接続部 9 から出力される既接続情報で、ブロック音声データの属性が切り替わつたことが検知されたり、同じ属性のブロック音声データが接続され続けていても、前記書き換え可能なメモリから読み出した前記プロック音声データの伸長倍率が変更されていることが検知されたとき、接続順序の生成工程の開始条件が整ったと判定され、このときの時刻が時刻 T 。に決定される。

この後、この時刻 T 。を開始時刻として、ブロックデ一夕蓄積部 5 から音声デ一夕接続部 9 に対して既に出力された話速変更前のブロック音声データのブロック長を全て加算した総和を " S i " 、既に接続されたブロック音声デ— 夕のプロック長を全て加算した総和を " S

。 " とし、目的の伸長倍率を " r " (但し、 r ≥ 1 . 0 ) とし、最後に接続されたブロック音声デ一夕のプロック長を " L " とし、次式に示す条件が成り立つ夕イミングで、

L 2 < S S [ 1 ] 接続デー夕蓄積部 7 から出力される接続データのうち、最後に接続されたブロックに対応する接続デ一夕を置換挿入した後、最後に接続されたブロックのうち接続デー夕生成に用いた部分より後ろの部分を再度、繰り返して接続し、このブロックの後に、残りのブロックを順次、接続することを示す接 z順序を生成し、これを音声デー夕接続部 9 に供給する。

これにより、図 3 に示す例では、プロック（ 1 ) からブロック ( 8 ) までを順次、接続した時点で、 [ 1 ] 式に示す条件が満たされること力ゝら、ブロック（ 8 ) の後に、このブロック ·（ 8 ) に対応する接続データが置換、挿入されて、ブロック（ 8 ) のうち接続データ生成に用いた部分より後ろの部分が繰り返し接続される。なお、この図 3 に示す例では、ブロック（ 4 ) が既に一度、繰り返し接続されている。

音声デ一夕接続部 9 は、既に接 fee し /こブ口ック音声デ一夕などの接続内容を既接続情報として、接続順序生成部 8 に供給しながら、接 hz順序生成部 8 から出力される接続順序に基づき、ブ口ックデ一夕蓄積部 5 から出力されるブ口ック音声デ一夕と、接続データ蓄積部 7 力ゝら出力される接続データとを接しての音声データを生成し、これによつて得られたー連の音声デー夕をパ' ッフアリングしな力 S ら、 D / Α 変換部 1 0 に供給する。

、、

D / A 変換部 1 0 は、音尸つ夕を記憶して F I F O 形式で出力するメモ U と、所定のサンプリングレー卜 (例えば、 3 2 k H z ) で ffj 記メモリから音声了 ― タ g み出して、これを D / A 変換して音声にする D / A 変換回路とを備えており、音声デ一夕接続部 9 力ゝら出力され一連の音声デー夕を取り込んで、これをノ ' ッフアリングしながら、 D Z A 変換し、これによって得られた音声信号を出力端子から出力する。

このように、この実施の形態では、受聴者の操作に応じた任意の話速を示す話速変換制御 ' -iト主w報に基づき、予め蓄積されているブロック音声テ一夕と、接続デ一夕との順序を制御しながら、出力音声を形成するようにしているので、受聴者が手動操作によって話速を変化させたとさにも、即座に所望話速の音声を出力することができ、これによって話速を途中で変えられたとき、受聴者側に時間遅れを感じさせないようにすることがでさる。

この結果、本発明によ BiS速変換装置 1 を、テレビジョン、ラジォ、テ一プレ Π一ダ、ビデォテープレコーダ

立

ビデォデイスクプレーヤなどの映像機 35 、曰響機器、医療機器などに適用するだけで、発話者の音声を力 Πェして受聴者の受聴能力に音声スピ一ドをフイツ卜させる際、受聴者の操作に応じて、出力音声の話速を即座に変化させることがでさる。

また、上述した実施の形態では、接続デ一夕生成部 6 において、図 2 に示す如く直線的に変化する A 窓、 B 窓を使用し、各ブロック音声デ一夕の開始部分に窓掛けを行なうようにしているが、余弦曲線などの窓を使用して各ブロック音声デ一夕の開始部分に窓掛けを行なうようにしても良い。また、接続データ蓄積部 7 のバッファ容量が十分大きければ、窓掛けは各ブロック音声デ一夕の開始部分だけでなく、ブロック長全体に対して行うことができる。

また、上述した実施の形態では、接続順序生成部 8 において、図 3 に示す如くブロック音声データ（ 4 ) 、 ( 8 ) の接続データと同ブロック音声デ一夕の後半部分を 1 回だけ、繰り返すようにしているが、伸長倍率 " r " が " r 〉 2 " であるときには、同一のブロック音声データを 2 回以上、繰り返すようにしても良い。

産業上の利用可能性

以上説明したように本発明によれば、受聴者の操作に応じて、出力音声の話速を瞬時に追従させることができこれによつて受聴者側の使い勝手を大幅に向上させることができる。

Claims

5冃求の範

1 . 入力された音声データに対して、属性に基づく分析処理を施し、

この分析処理で得られた情報に基づいて前記音声デー夕を所定の時間幅を有するブロック単位に分割し、

これをブロック音声データとして蓄積し

前記音声データの時間的な伸長を実現するために、隣り合うブロック音声データ間において置換または挿入すべき接続データを各ブロック毎に生成して蓄積し、

受聴者の操作に応じた任意の音声スピードに対応する出力音声デ一夕を生成するためのブロック接続順序を生成し、

この接続順序にしたがって、既にプロック単位に分割されて蓄積されているブロック音声データおよび接続デ一夕を順次、接続して出力音声デ一夕を生成することを特徴とする話速変換方法。

2 . 前記接続データは、各ブロック毎に、当該ブロックの開始部分にある音声データ、直後ブロックの開始部分にある音声データに対し、所定時間長の間に所定線を有する 2 つの窓を使用してそれぞれ窓掛けを行なった後直後ブロックの開始部分と、当該ブロックの開始部分とを重複加算することにより、生成されることを特徴とする話速変換方法。

3 . 入力された音声データに対して、属性に基づく分析処理を行なう分析処理部と、

この分析処理部の分析結果に応じて音声データを所定の時間幅を有するブロック単位に分割するブロックデ一夕分割部と、

このブロックデータ分割部で分割されたデ一夕をプロック音声データとして蓄積するブロックデータ蓄積部と前記ブロックデータ分割部で得られた各ブロック音声データを使用して隣り合うブロック音声データ間において置換または挿入可能な接続データを生成する接続デー夕生成部と、

この接続データ生成部で生成された接続データを蓄積する接続データ蓄積部と、

設定された音声スピードに対応する条件に基づき、前記ブロック音声データと前記接続データとの接続順序を生成する接続順序生成部と、

この接続順序生成部で得られた接続順序に基づき、前記ブロックデータ蓄積部に蓄積されているブロック音声データと前記接続データ蓄積部に蓄積されている接続デ — 夕とを順次、接続して一連の音声データを生成する音声データ接続部と、

を備えたことを特徴とする話速変換装置。

4 . 前記接続デ一夕生成部は、各ブロック毎に、当該ブロックの開始部分にある音声デ一夕、直後ブロックの開始部分にある音声デ一夕に対し、所定時間長の間に所定線を有する 2 つの窓を使用して窓掛けを行なった後、直後ブロックの開始部分と、当該ブロックの開始部分とを重複加算することにより、前記接続デ一夕を生成することを特徴とする話速変換装置。

5 . 前記接続順序生成部は、

各属性毎の時間的な伸長倍率を記憶する書き換え可能なメモリと、

所定の時間間隔で、前記書き換え可能なメモリに記憶されている各属性毎の時間的な伸長倍率を読み出すとともに、これらの各伸長倍率、ブロックデータ蓄積部から出力されるブロック長、及び音声データ接続部から出力される既接続情報に基づき、前記ブロック音声データと前記接続データとの接続順序を、時々刻々、生成する接続順序決定処理部と、

を備えることを特徴とする話速変換装置。