JPWO2006008810A1 - 速度変換装置、速度変換方法及びプログラム - Google Patents
速度変換装置、速度変換方法及びプログラム Download PDFInfo
- Publication number
- JPWO2006008810A1 JPWO2006008810A1 JP2006527702A JP2006527702A JPWO2006008810A1 JP WO2006008810 A1 JPWO2006008810 A1 JP WO2006008810A1 JP 2006527702 A JP2006527702 A JP 2006527702A JP 2006527702 A JP2006527702 A JP 2006527702A JP WO2006008810 A1 JPWO2006008810 A1 JP WO2006008810A1
- Authority
- JP
- Japan
- Prior art keywords
- speed
- speech speed
- silence
- playback speed
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 132
- 238000000034 method Methods 0.000 title claims description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 230000007423 decrease Effects 0.000 claims abstract description 7
- 230000001186 cumulative effect Effects 0.000 claims description 18
- 230000010365 information processing Effects 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 43
- 230000008569 process Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 21
- 230000002411 adverse Effects 0.000 description 13
- 230000009471 action Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 230000006854 communication Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 206010071299 Slow speech Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Description
2a,2c,2d 有音無音判定部
3a,3c 継続時間算出部
4a,4b,4c,4d,4e 話速決定部
5a,5b 話速変換部
6 遅延量取得部
7 信号雑音比取得部
P1 話速変換装置
P2 有音無音判定部
P3 継続時間算出手段
P4 話速決定部
P5 話速変換部
〔システム構成〕
まず、話速変換装置1の第一実施形態である話速変換装置1aの構成例について説明する。話速変換装置1aは、ハードウェア的には、バスを介して接続されたCPU(中央演算処理装置),主記憶装置(RAM),補助記憶装置などを備える。補助記憶装置は、不揮発性記憶装置を用いて構成される。ここで言う不揮発性記憶装置とは、いわゆるROM(Read−Only Memory:EPROM(Erasable Programmable Read−Only Memory),EEPROM(Electrically Erasable Programmable Read−Only Memory),マスクROM等を含む),FRAM(Ferroelectric RAM),ハードディスク等を指す。
有音無音判定部2aは、話速変換装置1aに入力された入力信号のうち処理の対象となる部分について、有音であるか無音であるかを判定する(この処理を「有音無音判定」と呼ぶ)。有音無音判定部2aには、既存のどのような有音無音判定技術が適用されても良い。以下、有音無音判定部2aが行う処理の具体例について説明する。
継続時間算出部3aは、入力信号において無音状態が継続している信号の長さとして、その信号が通常の速度で再生される際の時間(無音継続時間)を算出する。即ち、継続時間算出部3aは、有音無音判定部2aが継続的に無音と判定し続けている時間を算出する。継続時間算出部3aは、算出した無音継続時間を話速決定部4aへ渡す。
話速決定部4aは、有音無音判定部2aによる判定結果が無音である場合には、継続時間算出部3aによって算出された無音継続時間に応じて話速を決定する。図3,4は、無音と判定された場合に話速決定部4aが行う話速の制御例を示す図である。図3,4において、太い破線によって示されるグラフが、話速決定部4aによって決定される話速と無音継続時間との関係を示す。話速決定部4aは、無音継続時間が長いほど話速が速くなるように話速を決定する。例えば、話速決定部4aは、無音継続時間が閾値t2を超えた時点から閾値t3に至るまで、話速の倍率を無音継続時間の増大に従って直線的に2倍まで増加させても良い(図3参照)。この場合、例えば、話速決定部4aは、無音継続時間と話速との関係を示す数式に基づいて、無音継続時間から話速を算出しても良い。このとき、t2からt3にかけて話速が線形に増加するように設定されても良いし、話速が非線形に増加するように設定されても良い。
話速変換部5aは、話速決定部4aによって決定された話速に従って、入力信号の話速を変換する。具体的には、話速変換部5aは、処理対象となっているフレーム、即ち有音無音判定部2aによる有音無音判定が実施されたフレームにおける話速を変換する。そして、話速変換部5aは、話速が変換された後の信号を話速変換信号として出力する。
図5は、話速変換装置1aの動作例を示すフローチャートである。以下、図5を用いて話速変換装置1aの動作例について説明する。処理が開始されると、まず、話速変換装置1aに入力信号が入力される。そして、入力信号のうちの処理の対象となるフレームについて、有音無音判定部2aは、有音無音判定を実施する(S01)。この判定の結果、処理の対象となっているフレームが無音であると判定された場合(S02−無音)、継続時間算出部3aは、無音継続時間を算出する(S03)。次に、話速決定部4aは、この無音継続時間に基づいて、無音区間の話速を決定する(S04)。一方、S02において、処理の対象となっているフレームが有音であると判定された場合(S02−有音)、話速決定部4aは、処理の対象となっているフレームについて有音区間としての話速を決定する(S07)。そして、話速変換部5aは、話速決定部4aによって決定された話速に従って、処理の対象となっているフレームについて話速変換処理を行い(S05)、話速変換信号を出力する(S06)。
話速変換装置1aでは、無音区間の話速が、無音継続時間の長さに従ってより高速となるように決定される。図6は、話速変換装置1aによる話速の制御例を示す図である。上記のように構成されることにより、話速変換装置1aでは、例え保護区間を超えて話尾の誤判定が発生したとしても、そのような話尾の部分については急激に高速化されることはなく、高速化の程度が抑えられている(例えば1倍に近い話速に変換される)。このため、話尾の音が聞き取りにくくなるという問題や話尾において音切れが生じるという問題を解消することができる。また、無音継続時間の長さに応じて話速が高速化するため、遅延の解消が妨げられることもない。さらに、図6のように、場合によっては次の話頭(又は話頭の一部分)についても高速化を抑え、従来に比べて聞き取りやすくすることも可能である。
話速変換装置1aでは、図6に示されるように有音区間については話速を遅くする処理が実施されるが、話速変換装置1aはこのような処理を行わないように構成されても良い。即ち、話速変換装置1aは、無音区間については話速を速める処理を実行するが、有音区間については話速を遅らせる処理を実行しないように構成されても良い。例えば、IP電話(Internet Protocol電話)などのように、特に有音区間について話速を遅くする処理を行わなくとも遅延が生じてしまうシステムに話速変換装置1aを適用することが有効である。この場合、IP電話において話速変換とは別の原因により生じる遅延を解消することが可能となる。
〔システム構成〕
次に、話速変換装置1の第二実施形態である話速変換装置1bの構成例について説明する。図8は、話速変換装置1bの機能ブロックの例を示す図である。話速変換装置1bは、遅延量取得部6を含む点、話速決定部4aに代えて話速決定部4bを含む点、及び話速変換部5aに代えて話速変換部5bを含む点で、話速変換装置1aと異なる。他の構成については、話速変換装置1bは、基本的に話速変換装置1aと同じである。以下、話速変換装置1bについて、話速変換装置1aと異なる点について説明する。
話速変換部5bは、有音無音判定部2aによる判定結果が有音である場合には、処理の対象となっているフレームの話速を遅らせる。このとき、話速変換部5bは、話速決定部4bによって決定された有音区間における話速に基づいて話速を遅らせても良いし、話速決定部4bの決定に関わらず有音区間における話速を所定の話速に遅らせても良い。
遅延量取得部6は、話速変換部5bが有音区間に対して話速を遅らせたことにより生じる遅延量を累積することにより、各処理時点における累積された遅延量(以下、「累積遅延量」と呼ぶ)を取得する。例えば、遅延量取得部6は、話速変換部5bから話速の変換処理により生じた遅延量を処理の度に取得しそれを蓄積することにより累積遅延量を取得しても良い。遅延量取得部6は、各処理時点における累積遅延量を話速決定部4bに渡す。
話速決定部4bは、無音区間の話速を決定する際に、継続時間算出部3aによって得られた無音継続時間と遅延量取得部6によって取得された累積遅延量とに基づいて話速を決定する点で話速決定部4aと異なる。図9は、累積遅延量と話速との関係を示す図である。話速決定部4bは、累積遅延量に基づき、最大話速を決定する。話速決定部4bは、例えば累積遅延量が閾値d1から閾値d2の間である場合に、図9に示されるように累積遅延量の増加に従って最大話速話速を増加させる。図10,11は、無音継続時間と話速との関係を示す図である。話速決定部4bは、累積遅延量に従って決定した最大話速と無音継続時間とに基づき、図10や図11に示されるようなグラフによって話速を決定する。即ち、話速決定部4bは、累積遅延量に従って決定した最大話速を上限として、無音継続時間が長いほど話速が高速となるように話速を決定する。
図12は、話速変換装置1bの動作例を示すフローチャートである。なお、図12において、図5のフローチャートに示された処理と同様の処理については図5と同じ符号を付す。以下、図12を用いて、話速変換装置1bの動作例について、話速変換装置1aとは異なる処理についてのみ説明する。
話速変換装置1が無音区間の話速を高速化させる一つの理由は、有音区間の話速を遅く変換することにより生じる遅延を解消することである。このため、遅延がほとんど生じていない場合には、無音区間の話速をほとんど高速化させる必要はない。従って、蓄積している遅延の量に応じて無音区間の話速を制御することも有効である。このような視点に従い、話速変換装置1bは、遅延量の蓄積状況に応じて、無音区間の話速を決定する際に基準となる最大話速を決定する。このように構成されることにより、累積遅延量が少ない場合に不必要に話速が高速化されることを防止することが可能となる。言い換えれば、累積遅延量が少ない場合の音切れを、話速変換装置1aに比べてより効果的に緩和することが可能となる。
話速変換装置1bにおいては、継続時間算出部3aは、無音区間における継続時間、即ち無音継続時間を算出しないように構成されても良い。このように構成された場合、話速決定部4bは、累積遅延量のみに基づいて話速を決定する。具体的には、このように構成された話速決定部4bは、図9に示されるグラフにおいて、累積遅延量に基づき最大話速を決定するのではなく、累積遅延量に基づき話速を決定する。例えば、このような構成は、図9に示されるグラフにおいて、縦軸の値を話速とすることで実現できる。
〔システム構成〕
次に、話速変換装置1の第三実施形態である話速変換装置1cの構成例について説明する。図13は、話速変換装置1cの機能ブロックの例を示す図である。話速変換装置1cは、有音無音判定部2aに代えて有音無音判定部2cを含む点、継続時間算出部3aに代えて継続時間算出部3cを含む点、及び話速決定部4aに代えて話速決定部4cを含む点で話速変換装置1aと異なる。他の構成については、話速変換装置1cは、基本的に話速変換装置1aと同じである。以下、話速変換装置1cについて、話速変換装置1aと異なる点について説明する。
有音無音判定部2cは、処理の対象としているフレームのみではなく、処理の対象としているフレームよりも前のフレーム(過去方向のフレーム)及び後のフレーム(未来方向のフレーム)についても有音無音判定の結果を取得する点で、有音無音判定部2aと異なる。図14は、有音無音判定部2cが有音無音判定の結果を取得するフレームの例を示す図である。有音無音判定部2cは、処理対象となるフレームと、その前のL個のフレームと、その後のM個のフレームとにおける有音無音判定の結果を取得する。即ち、有音無音判定部2cは、(1+L+M)フレーム分の有音無音判定の結果を取得する。有音無音判定部2cは、これらの各フレームについて有音無音判定を毎回実行することにより有音無音判定の結果を取得しても良い。また、有音無音判定部2cは、既に有音無音判定の済んでいるフレームについては、その判定結果を記憶しておき、新たに有音無音判定の実施が必要なフレームについてのみ有音無音判定を行うことにより上記の各フレームについての結果を取得しても良い。有音無音判定部2cは、各フレームにおける有音無音判定の結果を、継続時間算出部3cに渡す。
継続時間算出部3cは、有音無音判定部2cにおいて、処理の対象となるフレームが無音と判定された場合に、処理対象となるフレームから過去方向に向けて連続して無音と判定されたフレーム数と、未来方向に向けて連続して無音と判定された連続フレーム数とを取得する。
話速決定部4cは、無音区間の話速を決定する際に、処理対象となっているフレームから過去方向への無音継続時間及び未来方向への無音継続時間に基づいて話速を決定する点で、話速決定部4aと異なる。話速決定部4cは、未来方向への無音継続時間が所定の閾値よりも短い場合には、未来方向への無音継続時間に基づき話速を決定する。このとき、話速決定部4cは、未来方向への無音継続時間が短いほど話速が遅くなるように話速を決定する。以下、話速決定部4cの具体的な処理について説明する。
図16は、話速決定装置1cの動作例を示すフローチャートである。図16では、閾値t7を用いて過去方向と未来方向とのいずれの無音継続時間を用いて処理を行うか判断する方法が話速決定部4cに適用された場合のフローチャートを示す。以下、図16を用いて話速決定装置1cの動作例について説明する。
図17は、話速変換装置1cにおける話速の制御例を示す図である。話速変換装置1cでは、無音区間の話速が、過去方向の無音継続時間のみならず、未来方向の無音継続時間にも基づいて決定される。具体的には、話速決定部4cは、未来方向の無音継続時間が短いほど話速が遅くなるように話速を決定する。このため、有音区間に近い無音区間のフレームの話速は、早読みの状態ではなく例えば1倍などの通常の話速又は0.5倍などの遅い話速として制御される。このため、話頭において無音と誤判定された場合の悪影響(音切れなど)を防止又は軽減することが可能となる。
話速変換装置1cは、遅延量取得部6をさらに含むように構成されても良い。このように構成された場合、話速変換装置1cにおける話速決定部4cは、話速決定部4bのように累積遅延量に基づいて最高話速を決定しても良い。そして、話速決定部4cは、過去方向への無音継続時間又は未来方向への無音継続時間に基づいて話速を決定する際に、最高話速を基に話速を決定しても良い。
〔システム構成〕
次に、話速変換装置1の第四実施形態である話速変換装置1dの構成例について説明する。図18は、話速変換装置1dの機能ブロックの例を示す図である。話速変換装置1dは、有音無音判定部2aに代えて有音無音判定部2dを含む点、及び話速決定部4aに代えて話速決定部4dを含む点で話速変換装置1aと異なる。以下、話速変換装置1dについて、話速変換装置1aと異なる点について説明する。
有音無音判定部2dは、有音無音判定において、処理対象のフレームが有音であるか無音であるかの判定のみならず、無音と判定した場合の判定の信頼度を取得する点で、有音無音判定部2aと異なる。有音無音判定部2dは、有音無音判定部2aと同様の処理によって、入力信号(n)のパワー値から過去信号における無音時の平均パワー値の減算を行う。そして、有音無音判定部2aは、その減算結果に基づいて、信頼性を示す値(信頼度)を取得する。図19は、信頼度と減算結果との関係例を示す表である。有音無音判定部2dは、上記減算の結果と図19の表とに基づいて信頼度を取得する。そして、有音無音判定部2dは、取得した信頼度を話速決定部4dへ渡す。
話速決定部4dは話速決定部4aよりも話速決定部4bに構成が似ているため、話速決定部4bと比較することにより話速決定部4dについて説明する。話速決定部4dは、累積遅延量ではなく信頼度に基づいて最大話速を決定する点で話速決定部4bと異なる。話速決定部4dは、有音無音判定部2dにおける無音判定の信頼度が高いほど最大話速を高速として決定し、信頼度が低いほど最大話速を低速として決定する。図20は、信頼度と最大話速との関係例を示す表である。話速決定部4bは、例えば、有音無音判定部2dから受け取った信頼度と図20に示される表とに基づいて最大話速を決定する。そして、話速決定部4dは、話速決定部4bと同様に、例えば図10,11に示されるグラフに従って、最大話速と無音継続時間とに基づき話速を決定する。
図21は、話速変換装置1dの動作例を示すフローチャートである。なお、図21において、図5のフローチャートに示された処理と同様の処理については図5と同じ符号を付す。以下、図21を用いて、話速変換装置1dの動作例について、話速変換装置1aとは異なる処理についてのみ説明する。
話速変換装置1dでは、有音無音判定部2dにおいて無音と判定された場合の判定の信頼度に基づいて最大話速が決定される。具体的には、話速変更装置1dでは、有音無音判定部2dにおける無音判定の信頼度が高いほど最大話速が高速となり、信頼度が低いほど最大話速が低速となる。このため、無音という判定の信頼度が低い場合、即ち有音である可能性もある場合には最大話速を低く抑えることで、誤判定が生じた際の音飛びなどの悪影響を軽減することが可能となる。一方で、無音という判定の信頼度が高い場合、即ち有音である可能性が低い場合には、最大話速を高く設定することで、誤判定の場合の悪影響よりも話速を高速にすることを優先し、遅延の累積を効果的に削減することが可能となる。
話速変換装置1dは、第二実施形態における遅延量取得部6をさらに含むように構成されても良い。このように構成された場合、話速決定部4dは、信頼度のみならず累積遅延量にもさらに基づいて最大話速を決定するように構成されても良い。例えば、話速決定部4dは、信頼度と累積遅延量と最大話速との3軸により構成される表などに基づいて最大話速を決定しても良い。
〔システム構成〕
次に、話速変換装置1の第五実施形態である話速変換装置1eの構成例について説明する。図22は、話速変換装置1eの機能ブロックの例を示す図である。話速変換装置1eは、話速決定部4aに代えて話速決定部4eを含む点、及び信号雑音比取得部7をさらに含む点で話速変換装置1aと異なる。他の構成については、話速変換装置1eは、基本的に話速変換装置1aと同じである。以下、話速変換装置1eについて、話速変換装置1aと異なる点について説明する。
信号雑音比取得部7は、話速変換装置1eに入力された入力信号のうち、有音無音判定部2aの処理対象となっているフレームについて、信号雑音比(SN比)を取得する。信号雑音比取得部7には、信号雑音比を取得するためのどのような技術が適用されても良い。信号雑音比を取得するための具体的な処理についての説明は省略する。信号雑音比取得部7は、取得した信号雑音比を話速決定部4eへ渡す。
話速決定部4eは話速決定部4aよりも話速決定部4bに構成が似ているため、話速決定部4bと比較することにより話速決定部4eについて説明する。話速決定部4eは、累積遅延量ではなく信号雑音比に基づいて最大話速を決定する点で話速決定部4bと異なる。話速決定部4eは、信号雑音比取得部7において取得される信号雑音比が高いほど最大話速を高速に決定し、信号雑音比が低いほど最大話速を低速に決定する。図23は、信号雑音比と最大話速との関係例を示すグラフである。話速決定部4eは、例えば、信号雑音比取得部7から受け取った信号雑音比と図23に示されるグラフとに基づいて最大話速を決定する。そして、話速決定部4eは、話速決定部4bと同様に、例えば図10,11に示されるグラフに従って、最大話速と無音継続時間とに基づき話速を決定する。
図24は、話速決定装置1eの動作例を示すフローチャートである。なお、図24において、図5のフローチャートに示された処理と同様の処理については図5と同じ符号を付す。以下、図24を用いて、話速変換装置1eの動作例について、話速変換装置1aとは異なる処理についてのみ説明する。
話速変換装置1eでは、信号雑音比取得部7によって取得される信号雑音比に基づいて最大話速が決定される。具体的には、話速変更装置1eでは、信号雑音比が高いほど最大話速が高速となり、信号雑音比が低いほど最大話速が低速となる。一般的に、信号雑音比が高い場合には、信号(ここでは入力信号)における雑音量が少なく良好な状態であることを示し、その信頼性が高いことを示す。従って、信号雑音比が低い場合、即ち有音無音判定において誤判定がなされてしまう可能性が高い場合には最大話速を低く抑えることで、誤判定が生じた際の音飛びなどの悪影響を軽減することが可能となる。一方で、信号雑音比が高い場合、即ち誤判定が生じている可能性が低い場合には、最大話速を高く設定することで、誤判定の場合の悪影響よりも話速を高速にすることを優先し、遅延の累積を効果的に削減することが可能となる。
話速変換装置1eは、第二実施形態における遅延量取得部6をさらに含むように構成されても良い。このように構成された場合、話速決定部4eは、信頼度のみならず累積遅延量にもさらに基づいて最大話速を決定するように構成されても良い。例えば、話速決定部4eは、信頼度と累積遅延量と最大話速との3軸により構成される表などに基づいて最大話速を決定しても良い。
Claims (12)
- 入力された音声信号のうち処理の対象となる部分が有音か無音か判定する有音無音判定手段と、
前記有音無音判定手段において無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得する無音継続長取得手段と、
前記無音継続長取得手段によって取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定する決定手段と、
前記決定手段によって決定された再生速度に従って、前記音声信号の再生速度を変更する変更手段と
を含む速度変換装置。 - 前記有音無音判定手段において有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも遅くする低速化手段と、
前記低速化手段によって生じる遅延量を累積的に取得する遅延量取得手段と、
をさらに含み、
前記決定手段は、前記遅延量取得手段によって取得された遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度の最大値が大きくなるように、前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定する
請求項1に記載の速度変換装置。 - 前記有音無音判定手段は、入力された音声信号のうち処理の対象となる部分から未来方向にある所定の各部分の前記判定とをさらに行い、
前記無音継続長取得手段は、前記未来方向について、前記処理の対象となる部分から継続して無音であると判定されている信号の長さを示す未来方向継続長を取得し、
前記決定手段は、前記未来方向継続長が閾値よりも小さい場合には、未来方向継続長の長さに応じて、前記未来方向継続長が短いほど再生速度が遅くなるように、前記対象となる部分の再生速度を決定する
請求項1に記載の速度変換装置。 - 前記有音無音判定手段は、前記判定を行う各部分について、判定結果の信頼度をさらに取得し、
前記決定手段は、前記信頼度に応じて、前記信頼度が高いほど再生速度の最大値が大きくなるように前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定する前記音声信号のうち処理の対象となる部分の再生速度を決定する
請求項1に記載の速度変換装置。 - 前記有音無音判定手段は、処理の対象となる部分における音声信号のパワー値から、過去に無音と判定された部分における音声信号のパワー値の平均を減算し、この減算結果に基づいて、減算結果の値が低いほど高い信頼度を取得し、減算結果の値が高いほど低い信頼度を取得する請求項4に記載の速度変換装置。
- 前記音声信号のうち処理の対象となる部分について、信号雑音比を取得する信号雑音比取得手段をさらに備え、
前記決定手段は、前記信号雑音比取得手段によって取得された信号雑音比に応じて、信号雑音比が高いほど再生速度の最大値が大きくなるように、信号雑音比が低いほど再生速度の最大値が小さくなるように前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定する
請求項1に記載の速度変換装置。 - 入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定する有音無音判定手段と、
前記有音無音判定手段において有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも遅くする低速化手段と、
前記低速化手段によって生じる遅延量を累積的に取得する遅延量取得手段と、
前記遅延量取得手段によって取得される遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度が速くなるように、前記遅延量の累積値が小さいほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定する決定手段と、
前記決定手段によって決定された再生速度に従って、前記音声信号の再生速度を変更する変更手段と
を含む速度変換装置。 - 入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定するステップと、
無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得するステップと、
取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定するステップと、
決定された再生速度に従って、前記音声信号の再生速度を変更するステップと
を情報処理装置に実行させるためのプログラム。 - 入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定するステップと、
有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも遅くするステップと、
再生速度を通常の再生速度よりも遅くすることにより生じる遅延量を累積的に取得するステップと、
取得される遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度が速くなるように、前記遅延量の累積値が小さいほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定するステップと、
決定された再生速度に従って、前記音声信号の再生速度を変更するステップと
を情報処理装置に実行させるためのプログラム。 - 情報処理装置が、入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定するステップと、
情報処理装置が、無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得するステップと、
情報処理装置が、取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定するステップと、
情報処理装置が、決定された再生速度に従って、前記音声信号の再生速度を変更するステップと
を含む速度変換方法。 - 情報処理装置が、入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定するステップと、
情報処理装置が、有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも遅くするステップと、
情報処理装置が、再生速度を通常の再生速度よりも遅くすることにより生じる遅延量を累積的に取得するステップと、
情報処理装置が、取得される遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度が速くなるように、前記遅延量の累積値が小さいほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定するステップと、
情報処理装置が、決定された再生速度に従って、前記音声信号の再生速度を変更するステップと
を含む速度変換方法。 - 入力された音声信号が有音であるか無音であるか判定する手段と、
前記有音である期間の再生速度を遅くするとともに、前記無音である期間を詰める、又前記無音である期間の再生速度を速くする手段とを有することを特徴とする速度変換装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2004/010340 WO2006008810A1 (ja) | 2004-07-21 | 2004-07-21 | 速度変換装置、速度変換方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006008810A1 true JPWO2006008810A1 (ja) | 2008-05-01 |
JP4460580B2 JP4460580B2 (ja) | 2010-05-12 |
Family
ID=35784946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006527702A Expired - Fee Related JP4460580B2 (ja) | 2004-07-21 | 2004-07-21 | 速度変換装置、速度変換方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7672840B2 (ja) |
EP (1) | EP1770688B1 (ja) |
JP (1) | JP4460580B2 (ja) |
WO (1) | WO2006008810A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1840877A4 (en) * | 2005-01-18 | 2008-05-21 | Fujitsu Ltd | ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE |
US20080267224A1 (en) * | 2007-04-24 | 2008-10-30 | Rohit Kapoor | Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility |
US20090157396A1 (en) * | 2007-12-17 | 2009-06-18 | Infineon Technologies Ag | Voice data signal recording and retrieving |
WO2009086174A1 (en) | 2007-12-21 | 2009-07-09 | Srs Labs, Inc. | System for adjusting perceived loudness of audio signals |
JP5076974B2 (ja) * | 2008-03-03 | 2012-11-21 | ヤマハ株式会社 | 音処理装置およびプログラム |
US8538042B2 (en) * | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8204742B2 (en) | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
EP2388780A1 (en) * | 2010-05-19 | 2011-11-23 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for extending or compressing time sections of an audio signal |
PL2737479T3 (pl) | 2011-07-29 | 2017-07-31 | Dts Llc | Adaptacyjna poprawa zrozumiałości głosu |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US10638221B2 (en) | 2012-11-13 | 2020-04-28 | Adobe Inc. | Time interval sound alignment |
US10249321B2 (en) * | 2012-11-20 | 2019-04-02 | Adobe Inc. | Sound rate modification |
US10455219B2 (en) | 2012-11-30 | 2019-10-22 | Adobe Inc. | Stereo correspondence and depth sensors |
JP6098149B2 (ja) | 2012-12-12 | 2017-03-22 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
US10249052B2 (en) | 2012-12-19 | 2019-04-02 | Adobe Systems Incorporated | Stereo correspondence model fitting |
US9514747B1 (en) * | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
KR102329888B1 (ko) * | 2017-01-09 | 2021-11-23 | 현대자동차주식회사 | 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법 |
CN108962283B (zh) * | 2018-01-29 | 2020-11-06 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
KR20210032809A (ko) * | 2019-09-17 | 2021-03-25 | 삼성전자주식회사 | 동시 통역 방법 및 장치 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
EP0552051A2 (en) * | 1992-01-17 | 1993-07-21 | Hitachi, Ltd. | Radio paging system with voice transfer function and radio pager |
US5611018A (en) * | 1993-09-18 | 1997-03-11 | Sanyo Electric Co., Ltd. | System for controlling voice speed of an input signal |
JPH08292796A (ja) * | 1995-04-20 | 1996-11-05 | Sanyo Electric Co Ltd | 再生装置 |
US5699481A (en) * | 1995-05-18 | 1997-12-16 | Rockwell International Corporation | Timing recovery scheme for packet speech in multiplexing environment of voice with data applications |
JP3594409B2 (ja) * | 1995-06-30 | 2004-12-02 | 三洋電機株式会社 | Mpegオーディオ再生装置およびmpeg再生装置 |
US5809454A (en) | 1995-06-30 | 1998-09-15 | Sanyo Electric Co., Ltd. | Audio reproducing apparatus having voice speed converting function |
JPH09147472A (ja) * | 1995-11-27 | 1997-06-06 | Sanyo Electric Co Ltd | 映像・音声再生装置 |
JP3439307B2 (ja) * | 1996-09-17 | 2003-08-25 | Necエレクトロニクス株式会社 | 発声速度変換装置 |
EP0944036A4 (en) * | 1997-04-30 | 2000-02-23 | Japan Broadcasting Corp | METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP3235584B2 (ja) | 1999-02-18 | 2001-12-04 | 日本電気株式会社 | 車載可能な携帯無線電話機 |
JP3691304B2 (ja) | 1999-08-03 | 2005-09-07 | 三洋電機株式会社 | 話速変換装置 |
US6377931B1 (en) * | 1999-09-28 | 2002-04-23 | Mindspeed Technologies | Speech manipulation for continuous speech playback over a packet network |
JP2001154684A (ja) | 1999-11-24 | 2001-06-08 | Anritsu Corp | 話速変換装置 |
JP2001184100A (ja) * | 1999-12-24 | 2001-07-06 | Anritsu Corp | 話速変換装置 |
JP2001318700A (ja) * | 2000-02-28 | 2001-11-16 | Sanyo Electric Co Ltd | 話速変換装置 |
KR20010085664A (ko) * | 2000-02-28 | 2001-09-07 | 다카노 야스아키 | 화속 변환 장치 |
JP2001255894A (ja) * | 2000-03-13 | 2001-09-21 | Sony Corp | 再生速度変換装置及び方法 |
US6782363B2 (en) * | 2001-05-04 | 2004-08-24 | Lucent Technologies Inc. | Method and apparatus for performing real-time endpoint detection in automatic speech recognition |
DE10138408A1 (de) * | 2001-08-04 | 2003-02-20 | Philips Corp Intellectual Pty | Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf |
JP2003216200A (ja) | 2002-01-28 | 2003-07-30 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
EP1840877A4 (en) * | 2005-01-18 | 2008-05-21 | Fujitsu Ltd | ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE |
WO2007124582A1 (en) * | 2006-04-27 | 2007-11-08 | Technologies Humanware Canada Inc. | Method for the time scaling of an audio signal |
-
2004
- 2004-07-21 JP JP2006527702A patent/JP4460580B2/ja not_active Expired - Fee Related
- 2004-07-21 EP EP04770850A patent/EP1770688B1/en not_active Expired - Fee Related
- 2004-07-21 WO PCT/JP2004/010340 patent/WO2006008810A1/ja active Application Filing
-
2007
- 2007-01-17 US US11/653,952 patent/US7672840B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7672840B2 (en) | 2010-03-02 |
EP1770688A4 (en) | 2008-09-24 |
JP4460580B2 (ja) | 2010-05-12 |
WO2006008810A1 (ja) | 2006-01-26 |
US20070118363A1 (en) | 2007-05-24 |
EP1770688A1 (en) | 2007-04-04 |
EP1770688B1 (en) | 2013-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4460580B2 (ja) | 速度変換装置、速度変換方法及びプログラム | |
US6205420B1 (en) | Method and device for instantly changing the speed of a speech | |
WO2006077626A1 (ja) | 話速変換方法及び話速変換装置 | |
KR101953613B1 (ko) | 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램 | |
KR101952192B1 (ko) | 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램 | |
KR100350562B1 (ko) | 음성기록장치및그방법 | |
JP4798601B2 (ja) | 音声区間検出装置および音声区間検出プログラム | |
KR20030018072A (ko) | 오디오 속도 변환을 가능하게 하는 방법 및 시스템 | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US9489958B2 (en) | System and method to reduce transmission bandwidth via improved discontinuous transmission | |
JPS5982608A (ja) | 音声の再生速度制御方式 | |
JP3378672B2 (ja) | 話速変換装置 | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
KR20120061862A (ko) | 음성 재생 장치 및 음성 재생 방법 | |
JPH1070790A (ja) | 話速検出方法、話速変換方法および話速変換機能付補聴器 | |
JP3081469B2 (ja) | 話速変換装置 | |
JP3298188B2 (ja) | 音声検出方法 | |
JP2006343642A (ja) | 音声認識方法、音声認識装置、プログラム、記録媒体 | |
JP4745837B2 (ja) | 音響分析装置及びコンピュータプログラム、音声認識システム | |
KR20040082756A (ko) | 비음성 제거에 의한 음성 추출 방법 | |
JP2000349822A (ja) | 通信装置、音声パケット制御方法及び記憶媒体 | |
CN114513576A (zh) | 播放语音信号的方法及装置 | |
JP2010266778A (ja) | 再生装置 | |
JP2002271397A (ja) | パケット損失復旧器、及び、パケット損失復旧方法 | |
JP2005266411A (ja) | 音声圧縮方法および電話器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4460580 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130219 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140219 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |