JPWO2006077626A1 - 話速変換方法及び話速変換装置 - Google Patents

話速変換方法及び話速変換装置 Download PDF

Info

Publication number
JPWO2006077626A1
JPWO2006077626A1 JP2006553780A JP2006553780A JPWO2006077626A1 JP WO2006077626 A1 JPWO2006077626 A1 JP WO2006077626A1 JP 2006553780 A JP2006553780 A JP 2006553780A JP 2006553780 A JP2006553780 A JP 2006553780A JP WO2006077626 A1 JPWO2006077626 A1 JP WO2006077626A1
Authority
JP
Japan
Prior art keywords
speech
section
protection
buffer
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006553780A
Other languages
English (en)
Other versions
JP4630876B2 (ja
Inventor
佐々木 均
均 佐々木
片山 浩
浩 片山
理香 西池
理香 西池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2006077626A1 publication Critical patent/JPWO2006077626A1/ja
Application granted granted Critical
Publication of JP4630876B2 publication Critical patent/JP4630876B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本発明は、入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法において、前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行うよう構成することにより、遅延を最小限に抑え、話頭切れの発生を低減できる。

Description

本発明は、話速変換方法及び話速変換装置に関し、音の高さを変えずに音声の再生速度を変換する話速変換方法及び話速変換装置に関する。
従来から、相手の声の高さを変化させることなく音声の再生速度すなわち話速を遅くさせることにより、会話の内容を聞き取りやすくするための技術が提案されている。このとき、単純に話速を遅くさせるのみでは、遅くさせた分の遅延が生じてしまう。
このような問題を解決するため、会話の途中に存在する無音区間(人の声などの音が無い区間)を詰めることや無音区間における話速を早くさせることで、遅延を解消する技術が提案されている。
図1は、従来の話速変換装置の一例のブロック図を示す。同図中、端子10には1フレーム20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部11及び話速変換部12に供給される。
有音無音判定部11は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば+4dBを有音閾値として設定し、入力音声信号を有音閾値と比較して、音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を話速決定部13に供給する。
話速決定部13は、入力蓄積量計算部14から蓄積量(蓄積フレーム数)を供給されると共に、話頭保護区間(固定のフレーム数)を設定されており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部12及び入力蓄積量計算部14に供給する。
話速変換部12は入力音声信号をバッファに書き込み、話速決定部13からの話速に従ってバッファから音声信号を読み出して端子15から出力する。入力蓄積量計算部14は話速決定部13からの話速に基づいて話速変換部12のバッファに蓄積されている蓄積量を計算して、話速決定部13に供給する。
図2は、話速決定部13の話速決定テーブルを示す。有音区間では、話速を0.5倍(2倍伸張)とする。ただし、処理遅延時間が1秒(=50フレーム)以上の場合には話速を1倍とする。話頭保護区間、即ち後続3フレーム以内に有音判定区間がある場合には話速を1倍とする。話尾保護区間、即ち過去10フレーム以内に有音判定区間がある場合には話速を1倍とする。ポーズ保持区間、即ち話尾保護終了後の10フレーム以内は話速を1倍とする。無音削除区間は、上記各区間以外では音声信号を削除して詰める。ただし、処理遅延時間がない場合は話速を1倍とする。
なお、特許文献1には、一定時間長以上の非音声区間に挟まれた音声区間に対し、その冒頭部分が所定の再生速度より遅くなり、かつ末尾に向けて次第に所定の再生速度に戻すように話速変換することが記載されている。
特開2001−222300公報
しかしながら、無音区間を詰める処理や無音区間における話速を速める処理を行う際には、有音無音判定の精度を考慮する必要がある。例えば、雑音環境下では有音無音判定において誤判定が生じる場合がある。雑音の無い環境下では、話頭や話尾においても比較的正確に有音無音の判定が行われる。しかし、雑音環境下では、雑音レベルが話頭や話尾におけるパワー値と近い値又は超える値となってしまう場合があり、その場合は話頭や話尾が雑音に埋もれてしまう。
このため、雑音環境下では、有音無音の判定を正確に実現することが困難となる。例えば、雑音環境下では、話頭や話尾や無声子音などのように音声パワーが小さい部分は、有音区間であるにも拘わらず無音と誤判定される可能性が高くなってしまう。
このような誤判定に基づいて無音区間を詰める処理や話速を速める処理が実行されると、音切れの発生や、無音継続長が過度に短縮されるなどの問題が生じてしまう。
図3(A)に入力音声信号パワー(音量)の概略の時間変化を実線で示す。音声信号に定常パワーの雑音が重畳しており、その雑音レベル+4dBを有音閾値に設定している。図3(A)の下部には各区間の判定結果を示している。ただし話頭保護区間は話頭から、語尾保護区間については語尾からの分のみを記載している。左から1番目、2番目、5番目、6番目の音声については有音区間と判定されるが、3番目、4番目の音声については雑音に埋もれた形となっていて無音区間と判定される。
3番目の音声については語尾保護で削除をまぬがれるが、4番目の音声については固定の話頭保護区間が短いために話頭切れが生じる。図3(B)に話速変換後の音声信号パワーを示す。
図3(B)の区間(1):開始時点で既に話速変換での処理遅延(入力蓄積)が10フレーム分あるものとする。
区間(2),区間(3):1番目、2番目の音声は有音判定となるので2倍伸長(1/2倍速)となる。区間(2),(3)の間は話頭保護及び語尾保護で1倍速の出力となる。
区間(4):3番目の音声は無音判定であるが、語尾保護とポーズ保持区間に入るので、1倍速で出力される。その後の無音区間もポーズ保持区間内は1倍速の出力となり、その後は削除される。
区間(5):4番目の音声は無音判定で一部しか話頭保護されない。この時点での話速変換遅延(入力蓄積量)が十分あるために、保護区間のみ1倍速で出力され、それ以外は削除され、話頭切れが生じる。
区間(6):5番目の音声は有音判定なので、2倍伸長となる。
話頭保護について従来は固定長の話頭保護区間を設定しているので、話頭保護の分だけ遅延を挿入(追加)する必要がある。例えば電話における留守録等の蓄積音では十分な話頭保護を設定できる。しかし、実時間の通話で話速変換する場合には、遅延を最小限に抑える必要があるので、十分な長さの話頭保護区間を設定することができず、話頭切れを生じるおそれがあるという問題があった。
本発明は、上記の点に鑑みなされたものであり、遅延を最小限に抑え、話頭切れの発生を低減できる話速変換方法及び話速変換装置を提供することを総括的な目的とする。
この目的を達成するため、本発明は、入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法において、前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行うよう構成する。
このような話速変換方法によれば、遅延を最小限に抑え、話頭切れの発生を低減できる。
従来の話速変換装置の一例のブロック図である。 従来の話速変換装置の話速決定部の話速決定テーブルを示す図である。 従来の入力音声信号パワーと話速変換後の音声信号パワーを示す図である。 本発明の話速変換装置の第1実施形態のブロック図である。 第1実施形態における話速決定部の話速決定テーブルを示す図である。 本発明の入力音声信号パワーと話速変換後の音声信号パワーを示す図である。 第2実施形態における有音無音判定部の音声無音判定テーブルを示す図である。 第2実施形態における話速決定部の話速決定テーブルを示す図である。 本発明の話速変換装置の第3実施形態のブロック図である。 第4実施形態における話速決定部の話速決定テーブルを示す図である。
符号の説明
20,26 端子
21 有音無音判定部
22 話速変換部
23 話速決定部
24 入力蓄積量計算部
25,31 話頭保護区間決定部
30 推定SNR判定部
以下、図面に基づいて本発明の実施形態について説明する。
<第1実施形態>
図4は、本発明の話速変換装置の第1実施形態のブロック図を示す。同図中、端子20には1フレーム20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部21及び話速変換部22に供給される。
有音無音判定部21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば+4dBを有音閾値として設定し、入力音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を話速決定部23に供給する。なお、簡単のためパワー(音量)のみで有音判定を行うこととしたが、周波数特性などの特徴量を用いて有音判定を行っても良く、また、有音閾値として固定値を用いても良い。
話速決定部23は、入力蓄積量計算部24から蓄積量(蓄積フレーム数)を供給されると共に、話頭保護区間決定部25から話頭保護区間(可変のフレーム数)を供給されており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部22及び入力蓄積量計算部24に供給する。
話速変換部22は入力音声信号をバッファに書き込み、話速決定部23からの話速に従ってバッファから音声信号を読み出して端子26から出力する。削除区間は単にデータを捨てる。話速を遅くする場合には、例えば各フレームを4分割程度のサブフレームに分割し、サブフレーム毎に伸長倍率に応じて繰返し再生する。2倍伸長の場合は各サブフレームを2回繰返し再生する。1.5倍伸長であれば、奇数サブフレームを1回再生し、偶数サブフレームを2回繰返し再生する。このとき、特許第3147562号に記載のように、相関などの情報を基に滑らかに接続できるようにずらして接続する手法が一般的である。
なお、話速変換部22は音声信号を削除する代りに、話速を速くして圧縮しても良い。話速を2倍にして圧縮する場合には、例えば奇数サブフレームを1回再生し、偶数サブフレームを削除する。
入力蓄積量計算部24は話速決定部23からの話速に基づいて話速変換部22のバッファに蓄積されている蓄積量を計算して、話速決定部23及び話頭保護区間決定部25に供給する。具体的には、削除であれば、削除するフレーム数だけ蓄積量及び遅延は減少し、話速を0.5倍にすれば1フレームにつき20ms分だけ蓄積量が増加することになる。この修正された蓄積量は次のフレームの話速を決定するのに用いられる。
話頭保護区間決定部25は、蓄積量に応じて話頭保護区間(可変のフレーム数)を決定する。例えば、蓄積量(話速変換での遅延に対応)が10フレーム以下の場合は、蓄積量(蓄積フレーム数)を話頭保護区間とする。蓄積量が10フレーム以上の場合には話頭保護区間を10フレームとする。
図5は、第1実施形態における話速決定部23の話速決定テーブルを示す。有音区間では、話速を0.5倍(2倍伸張)とする。ただし、処理遅延時間が1秒(=50フレーム)以上の場合には音声信号の削除を禁止して話速を1倍とする。
話頭保護区間、即ち話頭保護区間決定部25で決定されたフレーム数以内に有音判定区間がある場合には音声信号の削除を禁止して話速を1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良い。
話尾保護区間、即ち過去10フレーム以内に有音判定区間がある場合には音声信号の削除を禁止して話速を1倍とする。
ポーズ保持区間、即ち話尾保護終了後のNフレームのポーズ保持区間は音声信号の削除を禁止して話速を1倍とする。N=13−話頭保護区間(ただし、Nの上限は10フレーム、下限は5フレーム)である。
無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信号を削除する。処理遅延時間がない場合は話速を1倍とする。
図6(A)に入力音声信号パワー(音量)の概略の時間変化を実線で示す。音声信号に定常パワーの雑音が重畳しており、その雑音レベル+4dBを有音閾値に設定している。図6(A)の下部には各区間の判定結果を示している。ただし話頭保護区間は話頭から、語尾保護区間については語尾からの分のみを記載している。左から1番目、2番目、5番目、6番目の音声については有音区間と判定されるが、3番目、4番目の音声については雑音に埋もれた形となっていて、無音区間と判定される。
図6(B)に話速変換後の音声信号パワーを示す。
図6(B)の区間(1):開始時点で既に話速変換での処理遅延(入力蓄積)が10フレーム分あるものとする。
区間(2),区間(3):1番目、2番目の音声は有音区間と判定されるので2倍伸長(1/2倍速)となる。区間(2),(3)の間は話頭保護及び語尾保護で1倍速の出力となる。
区間(4):3番目の音声に続く無音区間はポーズ保持区間(1倍速)を従来に対し減らした分だけ早い時点から削除を開始する。
区間(5):4番目の音声は話頭保護が増えたので話頭切れが解消する。
区間(6):5番目の音声は有音判定なので2倍伸長となる。
無音区間を詰める必要があるのは遅延が発生している場合、つまり未処理の音声信号データが蓄積されている場合である。したがって、話速変換部22のバッファ蓄積量に応じ、かつ所定値に制限して話頭保護区間を設定することで、遅延を増やさずに話頭保護を実施でき、また、ポーズ保持区間を話頭保護区間に応じて可変することにより、バッファ蓄積量が多いときには遅延量を増やすことなく従来よりも正確な話頭保護が実現できる。
<第2実施形態>
第2実施形態では、図4のブロック図に示す有音無音判定部21及び話速決定部23の動作が第1実施形態と異なっているので、有音無音判定部21及び話速決定部23の動作について説明する。
図7は、第2実施形態における有音無音判定部21の音声無音判定テーブルを示す。有音無音判定部21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば+4dBを有音閾値として設定し、学習した無音レベル+1dBを無音確実度判定値として設定する。
有音無音判定部21は入力音声信号が有音閾値以上の区間を有音判定区間と判定し、入力音声信号が有音閾値以下で無音確実度判定値以上であれば確実度小の無音区間と判定し、無音確実度判定値以下であれば確実度大の無音区間と判定し、判定結果を話速決定部23に供給する。
図8は、第2実施形態における話速決定部23の話速決定テーブルを示す。有音区間では、話速を0.5倍(2倍伸張)とする。ただし、処理遅延時間が1秒(=50フレーム)以上の場合には音声信号の削除を禁止して話速を1倍とする。
話頭保護区間、即ち話頭保護区間決定部25で決定されたフレーム数以内に有音判定区間がある場合、または、話頭保護区間決定部25で決定されたフレーム数が10フレーム未満で確実度小の無音区間がある場合には音声信号の削除を禁止して話速を1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良い。
話尾保護区間、即ち過去10フレーム以内に有音判定区間がある場合には音声信号の削除を禁止して話速を1倍とする。
ポーズ保持区間、即ち話尾保護終了後の10フレームのポーズ保持区間は音声信号の削除を禁止して話速を1倍とする。
無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信号を削除する。処理遅延時間がない場合は話速を1倍とする。
このように、話頭保護区間が10フレーム未満の場合には現フレームの無音信頼度が高い場合のみ削除または1倍速の対象とすることによって、話頭保護区間が相対的に短い場合に話頭切れが発生しやすいという問題を低減する。
<第3実施形態>
図9は、本発明の話速変換装置の第3実施形態のブロック図を示す。同図中、図4と同一部分には同一符号を付す。
図9において、端子20には1フレーム20msでフレーム単位のデジタルの音声信号が入力され、有音無音判定部21及び話速変換部22及び推定SNR算出部27に供給される。
有音無音判定部21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば+4dBを有音閾値として設定し、入力音声信号が有音閾値以上の区間を有音判定区間と判定し、判定結果を話速決定部23に供給する。なお、簡単のためパワー(音量)のみで有音判定を行うこととしたが、周波数特性など特徴量を用いて有音判定を行っても良く、また、有音閾値として固定値を用いても良い。
推定SNR判定部30は、SNR(信号雑音比)を推定し、推定SNRが高いか低いか判定する。SNRの推定判定法としては、例えば過去30秒の最大パワー(音量)と最小パワーの差を求め、その差が閾値(例えば15dB)を超えていれば推定SNRが高いと見なし、閾値以下であれば推定SNRが低いと見なす。
話速決定部23は、入力蓄積量計算部24から蓄積量(蓄積フレーム数)を供給されると共に、話頭保護区間決定部31から話頭保護区間(可変のフレーム数)を供給されており、有音判定結果と蓄積量と話頭保護区間に応じて話速を決定し、この話速を話速変換部22及び入力蓄積量計算部24に供給する。
話速変換部22は入力音声信号をバッファに書き込み、話速決定部23からの話速に従ってバッファから音声信号を読み出して端子26から出力する。削除区間は単にデータを捨てる。話速を遅くする場合には、例えば各フレームを4分割程度のサブフレームに分割し、サブフレーム毎に伸長倍率に応じて繰返し再生する。2倍伸長の場合は各サブフレームを2回繰返し再生する。1.5倍伸長であれば、奇数サブフレームを1回再生し、偶数サブフレームを2回繰返し再生する。
入力蓄積量計算部24は話速決定部23からの話速に基づいて話速変換部22のバッファに蓄積されている蓄積量を計算して、話速決定部23及び話頭保護区間決定部31に供給する。具体的には、削除であれば、削除するフレーム数だけ蓄積量及び遅延は減少し、話速を0.5倍にすれば1フレームにつき20ms分だけ蓄積量が増加することになる。この修正された蓄積量は次のフレームの話速を決定するのに用いられる。
話頭保護区間決定部31は、蓄積量と推定SNRに応じて話頭保護区間(可変のフレーム数)を決定する。例えば、推定SNRが低い場合は、蓄積量(話速変換での遅延に対応)が10フレーム以下であれば蓄積量(蓄積フレーム数)を話頭保護区間とする。蓄積量が10フレーム以上のときは話頭保護区間を10フレームとする。
推定SNRが高い場合は、蓄積量が3フレーム以下の場合は蓄積量(蓄積フレーム数)を話頭保護区間とする。蓄積量が3フレーム以上の場合には話頭保護区間を3フレームとする。
本実施形態では、推定SNRが高い場合には話頭を誤って無音と判定するおそれが少ないことから、過剰に保護区間を設定することを防止できる。
<第4実施形態>
第4実施形態では、図4のブロック図に示す有音無音判定部21及び話速決定部23の動作が第3実施形態と異なっているので、有音無音判定部21及び話速決定部23の動作について説明する。
第4実施形態における有音無音判定部21の音声無音判定テーブルは図7に示す通りである。有音無音判定部21は、発話開始前等の初期無音時に雑音レベルを学習し、学習した無音レベル例えば+4dBを有音閾値として設定し、学習した無音レベル+1dBを無音確実度判定値として設定する。
有音無音判定部21は入力音声信号が有音閾値以上の区間を有音判定区間と判定し、入力音声信号が有音閾値以下で無音確実度判定値以上であれば確実度小の無音区間と判定し、無音確実度判定値以下であれば確実度大の無音区間と判定し、判定結果を話速決定部23に供給する。
図10は、第4実施形態における話速決定部23の話速決定テーブルを示す。有音区間では、話速を0.5倍(2倍伸張)とする。ただし、処理遅延時間が1秒(=50フレーム)以上の場合には音声信号の削除を禁止して話速を1倍とする。
話頭保護区間、即ち話頭保護区間決定部25で決定されたフレーム数以内に有音判定区間がある場合には音声信号の削除を禁止して話速を1倍とする。ただし、現フレームと後続3フレームが全て確実度大の無音区間である場合には話頭保護を行わない。
話尾保護区間、即ち過去10フレーム以内に有音判定区間がある場合には音声信号の削除を禁止して話速を1倍とする。なお、削除を禁止する代りに圧縮率を調整しても良い。
ポーズ保持区間、即ち話尾保護終了後の10フレームのポーズ保持区間は音声信号の削除を禁止して話速を1倍とする。
無音削除区間は、上記各区間以外であり、処理遅延時間がある場合には音声信号を削除する。処理遅延時間がない場合は話速を1倍とする。
本実施形態では、現フレームと後続3フレームの無音確実度が大の場合には話頭を誤って無音と判定するおそれが少ないことから、過剰に保護区間を設定することを防止できる。
なお、話頭保護区間決定部25,31が請求項記載の話頭保護区間決定手段に相当し、話速決定部23が話頭保護手段及びポーズ保持区間設定手段に相当し、有音無音判定部21が無音確実度判定手段に相当し、推定SNR判定部30が信号雑音比推定手段に相当する。

Claims (9)

  1. 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換方法において、
    前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とし、
    前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換方法。
  2. 請求項1記載の話速変換方法において、
    前記有音区間に続く所定長の話尾保護区間の終了後に設定するポーズ保持区間の長さを前記話頭保護区間の長さに応じて設定する話速変換方法。
  3. 請求項1または2記載の話速変換方法において、
    前記入力音声信号のパワーが前記閾値未満の無音区間で無音確実度を判定し、
    前記話頭保護区間内における無音区間の無音確実度が小さければ前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換方法。
  4. 請求項1乃至3のいずれか1項記載の話速変換方法において、
    前記入力音声信号の信号雑音比を推定し、
    推定信号雑音比が一定値より低い場合の前記話頭保護区間に対する前記制限値より、前記推定信号雑音比が一定値より高い場合の前記話頭保護区間に対する前記制限値を小さく設定する話速変換方法。
  5. 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号をそのままもしくは伸張し、無音区間は前記バッファから読み出す音声信号をそのままもしくは圧縮もしくは削除して話速を変換する話速変換装置において、
    前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とする話頭保護区間決定手段と、
    前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話頭保護手段を
    有する話速変換装置。
  6. 請求項5記載の話速変換装置において、
    前記有音区間に続く所定長の話尾保護区間の終了後に設定するポーズ保持区間の長さを前記話頭保護区間の長さに応じて設定するポーズ保持区間設定手段を
    有する話速変換装置。
  7. 請求項5または6記載の話速変換装置において、
    前記入力音声信号のパワーが前記閾値未満の無音区間で無音確実度を判定する無音確実度判定手段を有し、
    前記話頭保護手段は、前記話頭保護区間内における無音区間の無音確実度が小さければ前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話速変換装置。
  8. 請求項5乃至7のいずれか1項記載の話速変換装置において、
    前記入力音声信号の信号雑音比を推定する信号雑音比推定手段を有し、
    前記話頭保護区間決定手段は、推定信号雑音比が一定値より低い場合の前記話頭保護区間に対する前記制限値より、前記推定信号雑音比が一定値より高い場合の前記話頭保護区間に対する前記制限値を小さく設定する話速変換装置。
  9. 入力音声信号をバッファに蓄積し、前記入力音声信号のパワーが閾値を超える有音区間は前記バッファから読み出す音声信号を圧縮・伸張する際に、パワーが前記閾値を下回る無音区間よりもゆっくりとなるよう話速を変換する話速変換装置において、
    前記有音区間に先行して設定する話頭保護区間を、所定の制限値で制限した前記バッファの蓄積量とする話頭保護区間決定手段と、
    前記話頭保護区間内に前記有音区間があれば前記音声信号の圧縮もしくは削除を、禁止もしくは圧縮率を調整して話頭保護を行う話頭保護手段を
    有する話速変換装置。
JP2006553780A 2005-01-18 2005-01-18 話速変換方法及び話速変換装置 Expired - Fee Related JP4630876B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/000549 WO2006077626A1 (ja) 2005-01-18 2005-01-18 話速変換方法及び話速変換装置

Publications (2)

Publication Number Publication Date
JPWO2006077626A1 true JPWO2006077626A1 (ja) 2008-06-12
JP4630876B2 JP4630876B2 (ja) 2011-02-09

Family

ID=36692024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006553780A Expired - Fee Related JP4630876B2 (ja) 2005-01-18 2005-01-18 話速変換方法及び話速変換装置

Country Status (4)

Country Link
US (1) US7912710B2 (ja)
EP (1) EP1840877A4 (ja)
JP (1) JP4630876B2 (ja)
WO (1) WO2006077626A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013156552A (ja) * 2012-01-31 2013-08-15 Sharp Corp 話速変換装置、話速変換方法及びプログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
WO2006008810A1 (ja) * 2004-07-21 2006-01-26 Fujitsu Limited 速度変換装置、速度変換方法及びプログラム
JP2008107706A (ja) * 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
JP4390289B2 (ja) * 2007-03-16 2009-12-24 国立大学法人電気通信大学 再生装置
WO2009011021A1 (ja) * 2007-07-13 2009-01-22 Panasonic Corporation 話速変換装置及び話速変換方法
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置
JP5076974B2 (ja) * 2008-03-03 2012-11-21 ヤマハ株式会社 音処理装置およびプログラム
JP5346230B2 (ja) * 2009-03-10 2013-11-20 パナソニック株式会社 話速変換装置
JP5326796B2 (ja) * 2009-05-18 2013-10-30 パナソニック株式会社 再生装置
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
CN102483920A (zh) 2009-09-02 2012-05-30 富士通株式会社 声音再生装置和声音再生方法
FR2979465B1 (fr) * 2011-08-31 2013-08-23 Alcatel Lucent Procede et dispositif de ralentissement d'un signal audionumerique
JP5863472B2 (ja) * 2012-01-18 2016-02-16 日本放送協会 話速変換装置およびそのプログラム
JP6098149B2 (ja) * 2012-12-12 2017-03-22 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6224325B2 (ja) * 2013-02-18 2017-11-01 日本放送協会 話速変換装置、及びプログラム
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JPH0573089A (ja) * 1991-09-18 1993-03-26 Matsushita Electric Ind Co Ltd 音声再生方法
JPH06337696A (ja) * 1993-05-28 1994-12-06 Matsushita Electric Ind Co Ltd 速度変換制御装置と速度変換制御方法
JP2000305580A (ja) * 1999-04-23 2000-11-02 Roland Corp 無音判別方法、無音判別装置およびコンピュータ読み取り可能な記録媒体
JP2001056696A (ja) * 1999-08-18 2001-02-27 Nippon Telegr & Teleph Corp <Ntt> 音声蓄積再生方法および音声蓄積再生装置
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
JPH07129190A (ja) 1993-09-10 1995-05-19 Hitachi Ltd 話速変換方法及び話速変換装置並びに電子装置
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
US6885987B2 (en) * 2001-02-09 2005-04-26 Fastmobile, Inc. Method and apparatus for encoding and decoding pause information
GB2396271B (en) 2002-12-10 2005-08-10 Motorola Inc A user terminal and method for voice communication
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US20050114118A1 (en) * 2003-11-24 2005-05-26 Jeff Peck Method and apparatus to reduce latency in an automated speech recognition system
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
WO2006008810A1 (ja) * 2004-07-21 2006-01-26 Fujitsu Limited 速度変換装置、速度変換方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JPH0573089A (ja) * 1991-09-18 1993-03-26 Matsushita Electric Ind Co Ltd 音声再生方法
JPH06337696A (ja) * 1993-05-28 1994-12-06 Matsushita Electric Ind Co Ltd 速度変換制御装置と速度変換制御方法
JP2000305580A (ja) * 1999-04-23 2000-11-02 Roland Corp 無音判別方法、無音判別装置およびコンピュータ読み取り可能な記録媒体
JP2001056696A (ja) * 1999-08-18 2001-02-27 Nippon Telegr & Teleph Corp <Ntt> 音声蓄積再生方法および音声蓄積再生装置
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013156552A (ja) * 2012-01-31 2013-08-15 Sharp Corp 話速変換装置、話速変換方法及びプログラム

Also Published As

Publication number Publication date
EP1840877A4 (en) 2008-05-21
US20070265839A1 (en) 2007-11-15
EP1840877A1 (en) 2007-10-03
US7912710B2 (en) 2011-03-22
WO2006077626A1 (ja) 2006-07-27
JP4630876B2 (ja) 2011-02-09

Similar Documents

Publication Publication Date Title
JP4630876B2 (ja) 話速変換方法及び話速変換装置
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP0910065B1 (en) Speaking speed changing method and device
KR100739355B1 (ko) 음성 재생 방법 및 음성 재생 장치
JP4460580B2 (ja) 速度変換装置、速度変換方法及びプログラム
KR101952192B1 (ko) 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램
US10127924B2 (en) Communication apparatus mounted with speech speed conversion device
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
JP3378672B2 (ja) 話速変換装置
JP4212253B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP3081469B2 (ja) 話速変換装置
JP2006113375A (ja) 音声の再生及び停止を制御する音声再生装置及びプログラム
JP5691721B2 (ja) 音声データ処理装置
JP4117301B2 (ja) 音声データ補間装置と音声データ補間方法
EP0676868B1 (en) Audio signal transmission apparatus
JP5326796B2 (ja) 再生装置
JP6675079B2 (ja) 電話装置
KR20010085664A (ko) 화속 변환 장치
JP2001318700A (ja) 話速変換装置
JPH07203009A (ja) 留守番電話装置
JPH08154080A (ja) 音声信号処理方法及び音声信号処理装置
JPH01300740A (ja) 音声パケット通信における廃棄パケット補償装置
JP2008107381A (ja) 話速変換装置及び話速変換制御方法
JP2008099046A (ja) 音声再生装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees