JPWO2015059946A1 - 音声検出装置、音声検出方法及びプログラム - Google Patents
音声検出装置、音声検出方法及びプログラム Download PDFInfo
- Publication number
- JPWO2015059946A1 JPWO2015059946A1 JP2015543724A JP2015543724A JPWO2015059946A1 JP WO2015059946 A1 JPWO2015059946 A1 JP WO2015059946A1 JP 2015543724 A JP2015543724 A JP 2015543724A JP 2015543724 A JP2015543724 A JP 2015543724A JP WO2015059946 A1 JPWO2015059946 A1 JP WO2015059946A1
- Authority
- JP
- Japan
- Prior art keywords
- target
- section
- frame
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Abstract
Description
音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置が提供される。
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定工程と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定工程と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法が提供される。
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラムが提供される。
[処理構成]
図1は、第1実施形態における音声検出装置の処理構成例を概念的に示す図である。第1実施形態における音声検出装置10は、音響信号取得部21、音量計算部22、スペクトル形状特徴計算部23、尤度比計算部24、音声モデル241、非音声モデル242、第1の音声判定部25、第2の音声判定部26、統合部27等を有する。
以下、第1実施形態における音声検出方法について図4を用いて説明する。図4は、第1実施形態における音声検出装置10の動作例を示すフローチャートである。
上述したように第1実施形態では、音量が所定の閾値以上であり、かつ、周波数スペクトルの形状を表す特徴量を入力としたときの非音声モデルの尤度に対する音声モデルの尤度の比が所定の閾値以上である区間を、対象音声区間として検出する。従って、第1実施形態によれば、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出することができる。
以下、第2実施形態における音声検出装置について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
図6は、第2実施形態における音声検出装置10の処理構成例を概念的に示す図である。第2実施形態における音声検出装置10は、第1実施形態の構成に加えて、第1の区間整形部41および第2の区間整形部42を更に有する。
以下、第2実施形態における音声検出方法について図8を用いて説明する。図8は、第2実施形態における音声検出装置の動作例を示すフローチャートである。図8では、図4と同じ工程については、図4と同じ符号が付されている。同じ工程の説明は、ここでは省略する。
上述したように、第2実施形態では、音量に基づく音声検出結果に対して整形処理を施すとともに、尤度比に基づく音声検出結果に対して別の整形処理を施した上で、それら2つの整形結果の両方において対象音声を含むと判定された区間を、対象音声区間として検出する。従って、第2実施形態によれば、様々な種類の雑音が同時に存在する環境下においても対象音声の区間を高精度に検出でき、かつ、発話中の息継ぎ等の短い間によって音声検出区間が細切れになることを防ぐことができる。
図13は、第2実施形態の変形例における音声検出装置10の処理構成例を概念的に示す図である。本変形例の構成は第2実施形態の構成と同じであり、スペクトル形状特徴計算部23が、第1の区間整形部41が対象音声を含むと判定した区間(第1の区間整形部41による整形処理後の第1の対象フレームで特定される区間)の音響信号に対してのみ特徴量を計算する点が異なる。尤度比計算部24、第2の音声判定部26、及び、第2の区間整形部は、スペクトル形状特徴計算部23が特徴量を計算したフレームのみを対象に処理を行う。
以下、第3実施形態における音声検出装置10について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
[処理構成]
以下、第3実施形態における音声検出方法について図15を用いて説明する。図15は、第3実施形態における音声検出装置の動作例を示すフローチャートである。図15では、図4と同じ工程については、図4と同じ符号が付されている。同じ工程の説明は、ここでは省略する。
上述したように第3実施形態では、まず初めに音量と尤度比に基づいて対象音声区間を仮に検出し、次に音素事後確率のエントロピー及び時間差分を用いて、仮検出した対象音声区間が音声であるか非音声であるかを判定する。従って、第3実施形態によれば、音量と尤度比に基づいた判定では音声区間であると誤検出してしまうような雑音が存在する状況下においても、対象音声の区間を高精度に検出することができる。以下では、第3実施形態の音声検出装置10が様々な雑音が存在する状況下でも対象音声を高精度に検出できる理由を詳細に説明する。
時間差分計算部622は、音素事後確率の時間差分を数5により計算しても良い。
リアルタイムに入力される音響信号を処理して対象音声区間を検出する場合、棄却部63は、統合部27が対象音声区間の始端のみを確定している状態において、始端以降を仮検出区間として扱って、当該仮検出区間が音声であるか非音声であるかを判定しても良い。そして、当該仮検出区間が音声であると判定した場合に、当該仮検出区間を始端のみが確定した対象音声検出結果として出力する。本変形例によれば、対象音声区間の誤検出を抑えつつ、例えば、音声認識のような対象音声区間の始端が検出されてから処理を開始する処理を、終端が確定するより前の早いタイミングで開始することができる。
事後確率計算部61は、統合部27が対象音声であると判定した区間(対象音声区間)に対してのみ事後確率を計算しても良い。このとき、事後確率ベース特徴計算部62は、統合部27が対象音声であると判定した区間(対象音声区間)に対してのみ音素事後確率のエントロピーと時間差分とを計算する。本変形例によれば、統合部27が対象音声であると判定した区間(対象音声区間)に対してのみ、事後確率計算部61、及び、事後確率ベース特徴計算部62が動作するため、計算量を大きく削減できる。棄却部63は、統合部27が音声であると判定した区間が音声であるか非音声であるかを判定するため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。
第2実施形態で説明した図6及び図13の構成を基本とし、これらに事後確率計算部61、事後確率ベース特徴計算部62及び棄却部63をさらに設けた構成とすることもできる。
第4実施形態は、第1、第2または第3の実施形態をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。
図19は、第4実施形態における音声検出装置10の処理構成例を概念的に示す図である。第4実施形態における音声検出装置10は、CPU等を含んで構成されるデータ処理装置82と、磁気ディスクや半導体メモリ等で構成される記憶装置83と、音声検出用プログラム81等を有する。記憶装置83は、音声モデル241や非音声モデル242等を記憶する。
1. 音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置。
2. 1に記載の音声検出装置において、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第1の区間整形手段と、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第2の区間整形手段と、
をさらに有し、
前記第1の区間整形手段は、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形手段は、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
3. 1又は2に記載の音声検出装置において、
前記スペクトル形状特徴計算手段は、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出装置。
4. コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定工程と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定工程と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法。
4−2. 4に記載の音声検出方法において、
前記コンピュータは、
前記第1の音声判定工程による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合工程に渡す第1の区間整形工程と、
前記第2の音声判定工程による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合工程に渡す第2の区間整形工程と、
をさらに実行し、
前記第1の区間整形工程では、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形工程では、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出方法。
4−3. 4又は4−2に記載の音声検出方法において、
前記スペクトル形状特徴計算工程では、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出方法。
5. コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラム。
5−2. 5に記載のプログラムにおいて、
前記コンピュータを、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第1の区間整形手段、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第2の区間整形手段、
としてさらに機能させ、
前記第1の区間整形手段に、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行させ、
前記第2の区間整形手段に、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行させるプログラム。
5−3. 5又は5−2に記載のプログラムにおいて、
前記スペクトル形状特徴計算手段に、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行させるプログラム。
Claims (5)
- 音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置。 - 請求項1に記載の音声検出装置において、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第1の区間整形手段と、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第2の区間整形手段と、
をさらに有し、
前記第1の区間整形手段は、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形手段は、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。 - 請求項1又は2に記載の音声検出装置において、
前記スペクトル形状特徴計算手段は、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出装置。 - コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定工程と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定工程と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法。 - コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013218934 | 2013-10-22 | ||
JP2013218934 | 2013-10-22 | ||
PCT/JP2014/062360 WO2015059946A1 (ja) | 2013-10-22 | 2014-05-08 | 音声検出装置、音声検出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015059946A1 true JPWO2015059946A1 (ja) | 2017-03-09 |
JP6436088B2 JP6436088B2 (ja) | 2018-12-12 |
Family
ID=52992558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015543724A Active JP6436088B2 (ja) | 2013-10-22 | 2014-05-08 | 音声検出装置、音声検出方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160267924A1 (ja) |
JP (1) | JP6436088B2 (ja) |
WO (1) | WO2015059946A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097206A (ja) * | 2015-11-26 | 2017-06-01 | マツダ株式会社 | 車両用音声認識装置 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015059947A1 (ja) * | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
KR101805976B1 (ko) * | 2015-03-02 | 2017-12-07 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
JP6731802B2 (ja) * | 2016-07-07 | 2020-07-29 | ヤフー株式会社 | 検出装置、検出方法及び検出プログラム |
US10586529B2 (en) * | 2017-09-14 | 2020-03-10 | International Business Machines Corporation | Processing of speech signal |
CN110619871B (zh) * | 2018-06-20 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
US11823706B1 (en) * | 2019-10-14 | 2023-11-21 | Meta Platforms, Inc. | Voice activity detection in audio signal |
US11514892B2 (en) * | 2020-03-19 | 2022-11-29 | International Business Machines Corporation | Audio-spectral-masking-deep-neural-network crowd search |
CN112735381B (zh) * | 2020-12-29 | 2022-09-27 | 四川虹微技术有限公司 | 一种模型更新方法及装置 |
CN113884986B (zh) * | 2021-12-03 | 2022-05-03 | 杭州兆华电子股份有限公司 | 波束聚焦增强的强冲击信号空时域联合检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962293A (ja) * | 1995-08-21 | 1997-03-07 | Seiko Epson Corp | 音声認識対話装置および音声認識対話処理方法 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2002055691A (ja) * | 2000-08-08 | 2002-02-20 | Sanyo Electric Co Ltd | 音声認識方法 |
JP2004272201A (ja) * | 2002-09-27 | 2004-09-30 | Matsushita Electric Ind Co Ltd | 音声端点を検出する方法および装置 |
JP2005181458A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 信号検出装置および方法、ならびに雑音追跡装置および方法 |
JP2008064821A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間推定装置、方法、プログラム及びその記録媒体 |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US6993481B2 (en) * | 2000-12-04 | 2006-01-31 | Global Ip Sound Ab | Detection of speech activity using feature model adaptation |
CN102741918B (zh) * | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
-
2014
- 2014-05-08 JP JP2015543724A patent/JP6436088B2/ja active Active
- 2014-05-08 US US15/030,477 patent/US20160267924A1/en not_active Abandoned
- 2014-05-08 WO PCT/JP2014/062360 patent/WO2015059946A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962293A (ja) * | 1995-08-21 | 1997-03-07 | Seiko Epson Corp | 音声認識対話装置および音声認識対話処理方法 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2002055691A (ja) * | 2000-08-08 | 2002-02-20 | Sanyo Electric Co Ltd | 音声認識方法 |
JP2004272201A (ja) * | 2002-09-27 | 2004-09-30 | Matsushita Electric Ind Co Ltd | 音声端点を検出する方法および装置 |
JP2005181458A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 信号検出装置および方法、ならびに雑音追跡装置および方法 |
JP2008064821A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間推定装置、方法、プログラム及びその記録媒体 |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
Non-Patent Citations (2)
Title |
---|
斎藤彰他: "複数の特徴量による条件付確率場に基づく音声区間検出", 電子情報通信学会技術研究報告, vol. 109, no. 356, JPN6014032809, December 2009 (2009-12-01), pages 59 - 64, ISSN: 0003790559 * |
木田祐介他: "複数特徴の重み付き統合による雑音に頑健な発話区間検出", 電子情報通信学会論文誌, vol. 89, no. 8, JPN6014032808, August 2006 (2006-08-01), pages 1820 - 1828, ISSN: 0003790558 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097206A (ja) * | 2015-11-26 | 2017-06-01 | マツダ株式会社 | 車両用音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2015059946A1 (ja) | 2015-04-30 |
US20160267924A1 (en) | 2016-09-15 |
JP6436088B2 (ja) | 2018-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6350536B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
JP6436088B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
US20240112669A1 (en) | Methods and devices for selectively ignoring captured audio data | |
US11232788B2 (en) | Wakeword detection | |
US10540979B2 (en) | User interface for secure access to a device using speaker verification | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US20160118039A1 (en) | Sound sample verification for generating sound detection model | |
US10755704B2 (en) | Information processing apparatus | |
US10971149B2 (en) | Voice interaction system for interaction with a user by voice, voice interaction method, and program | |
KR20170073113A (ko) | 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP2021033051A (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20240071408A1 (en) | Acoustic event detection | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP2020008730A (ja) | 感情推定システムおよびプログラム | |
Hamandouche | Speech Detection for noisy audio files | |
JP6827602B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
KR100873920B1 (ko) | 화상 분석을 이용한 음성 인식 방법 및 장치 | |
JP2003108188A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6436088 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |