JPWO2007017993A1 - 発音期間を特定する音信号処理装置および音信号処理方法 - Google Patents

発音期間を特定する音信号処理装置および音信号処理方法 Download PDF

Info

Publication number
JPWO2007017993A1
JPWO2007017993A1 JP2007506392A JP2007506392A JPWO2007017993A1 JP WO2007017993 A1 JPWO2007017993 A1 JP WO2007017993A1 JP 2007506392 A JP2007506392 A JP 2007506392A JP 2007506392 A JP2007506392 A JP 2007506392A JP WO2007017993 A1 JPWO2007017993 A1 JP WO2007017993A1
Authority
JP
Japan
Prior art keywords
sound
sound signal
acquired
trigger signal
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007506392A
Other languages
English (en)
Other versions
JP5388447B2 (ja
Inventor
吉岡 靖雄
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007506392A priority Critical patent/JP5388447B2/ja
Publication of JPWO2007017993A1 publication Critical patent/JPWO2007017993A1/ja
Application granted granted Critical
Publication of JP5388447B2 publication Critical patent/JP5388447B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

環境雑音の変化が予測不可能な状況においても、高い精度で音信号における発音期間の特定を可能とする。音信号処理システム1が置かれた音空間内の音は、常時、マイク20により収音され、音信号として音信号処理装置10に入力されている。ユーザにより所定の操作が行われる前は、マイク20から入力された音信号は第1バッファ121に順次格納され、当該所定の操作が行われた後は、第2バッファ122に順次格納される。特定部114は、第1バッファ121に格納されている音信号のレベルを環境雑音のレベルとし、第2バッファ122に順次格納される音信号のレベルを現時点で発音されている音のレベルとして、S/N比を算出する。特定部114は算出したS/N比が所定の条件を満たすか否かを順次判定することにより、音信号における発音期間を特定する。

Description

本発明は、音信号から発音期間の音を示す部分を特定する技術に関する。
音声認識やピッチ検出等の処理においては、発音期間、すなわち音声や楽器音が発音されている期間と、非発音期間、すなわち音声や楽器音が発音されていない期間とを区別することが必要である。なぜなら、非発音期間においても通常の音空間には必ず環境雑音が存在するため、仮に発音期間と非発音期間の区別を行うことなく全ての期間において音声認識やピッチ検出等の処理を行うと、非発音期間において環境雑音に基づき誤った処理の結果が得られる可能性があるためである。また、本来処理が不要である非発音期間の音に関し音声認識やピッチ検出等の処理を行うことは無意味であり、処理装置のリソースを無駄に消費する等の観点から好ましくない。
音信号における発音期間と非発音期間を区別する方法としては、取得された音信号のS/N(Signal−Noise)比が予め定められたS/N比の閾値を上回る期間を発音期間として特定する方法が広く用いられている。しかしながら、非発音期間における環境雑音のレベルは音信号の取得される環境において様々に変化する。従って、固定的なノイズレベルを用いたS/N比により発音期間の特定を行うと、環境雑音のレベルが高い環境において取得された音信号においては非発音期間が誤って発音期間と特定されたり、環境雑音のレベルが低い環境において取得された音信号においては発音期間が誤って非発音期間と特定されたりする。
上記の問題を解決するために、例えば特許文献1には、音声付映像情報から音声情報を抽出するにあたり、音声付映像情報が示すコンテンツのジャンルに応じて異なるノイズレベルを用いる技術が開示されている。
特開2003−101939号公報
また、例えば特許文献2には、音信号を所定時間長のフレームに分割し、過去に非発音期間と特定されたフレームの属性値に基づき後続のフレームにおけるS/N比の算出に用いるノイズレベルを更新する技術が開示されている。
特開2001−265367号公報
ところで、ユーザの本人認証を発声により行う端末装置がある。そのような端末装置においては、ユーザが収音手段を備えた端末装置に対し所定の発声を行う。端末装置は、当該ユーザの発声を示す音信号から特徴量を抽出し、予め記憶されている正しいユーザの発声に関する特徴量と新たに抽出した特徴量とを比較することにより、当該ユーザが正しいユーザであるか否かを判定する。
上記のような場合、端末装置は収音手段により取得する音信号のうち、ユーザが発声を行った発音期間を特定する必要がある。ただし、本人認証が行われる際の音空間における環境雑音のレベル等は様々に変化するため、固定的なノイズレベルを用いたS/N比により発音期間の特定を行うと必ずしも正しい結果が得られるとは限らない。また、環境雑音のレベルがどのように変化するかを予め予測することは容易ではないため、特許文献1に開示されるように予めノイズレベルを変更するための基準を与えることも困難である。
また、特許文献2に開示されるような技術を用いる場合、まず過去のフレームに関し何らかの方法で非発音期間であるか否かの判定を行う必要があり、その判定において用いるノイズレベルを如何に与えるかが問題となる。すなわち、ノイズレベルの初期値が不適当であると発音期間の特定結果の精度が低くなる。
なお、ユーザによる楽器の演奏音のピッチ検出を行うピッチ検出装置等においても、上述した音声による本人認証を行う端末装置と同様の課題がある。
上記の状況に鑑み、本発明は、環境雑音の変化が予測不可能な状況においても、高い精度で音信号における発音期間の特定を可能とする音信号処理装置及び音信号処理方法を提供することを目的とする。
上記課題を達成するために、本発明は、継続的に音信号を取得する音信号取得手段と、現時点を終点とする所定期間において前記音信号取得手段により取得された音信号を記憶する記憶手段と、トリガ信号を取得するトリガ信号取得手段と、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号を用いてサウンドレベルの指標値を算出し、前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶されている音信号を用いてノイズレベルの指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことによりS/N比を算出し、前記S/N比が所定の条件を満たすか否かを判定することにより、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号のうち発音期間の音を示す部分を特定する特定手段とを備える音信号処理装置を提供する。
かかる音信号処理装置によれば、トリガ信号の取得前に取得され記憶されている音信号を環境雑音のみを示す音信号と見なしてS/N比を算出し、当該S/N比に基づき発音期間の特定が行われる結果、高い精度の特定結果が得られる。
前記音信号処理装置において、前記トリガ信号取得手段は、ユーザによる所定の操作に応じて操作手段により生成されるトリガ信号を取得するように構成されてもよいし、ユーザに対し発音を促す通知を行う通知手段により前記通知に伴い生成されるトリガ信号を取得するように構成されてもよい。
また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号の所定周波数の成分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶されている音信号の所定周波数の成分のパワーを示す指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出するように構成されてもよい。
また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号の振幅値および前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶されている音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出するように構成されてもよい。
また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点として特定するように構成されてもよい。そのような態様において、前記特定手段は、所定のフレームに関し算出した前記S/N比が前記所定の条件を満たさない場合、前記記憶手段に記憶されている音信号を当該所定のフレームを用いて更新し、当該所定のフレームの後続のフレームについて前記S/N比を算出するときに、当該更新後の前記記憶手段に記憶されている音信号を用いるように構成されてもよい。
また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点として特定するように構成されてもよい。
また、前記音信号処理装置において、前記特定手段は、前記記憶手段に記憶されている音信号を所定時間長ごとに分割して得られる複数のフレームの各々について所定の属性値を算出し、算出した属性値が所定の条件を満たすフレームを前記S/N比の算出に用いないように構成されてもよい。
また、本発明は、上記の音信号処理装置により行われる処理をコンピュータに実行させるプログラムを提供する。
また、本発明は、継続的に音信号を取得し、現時点を終点とする過去の所定期間において取得した音信号を記憶し、トリガ信号を取得し、前記トリガ信号を取得した時点後に取得した音信号を用いてサウンドレベルの指標値を算出し、前記トリガ信号を取得した時点において記憶している音信号を用いてノイズレベルの指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことによりS/N比を算出し、前記S/N比が所定の条件を満たすか否かを判定し、前記判定処理に基づいて、前記トリガ信号を取得した時点後に取得した音信号のうち発音期間の音を示す部分を特定する音信号処理方法を提供する。
また、本発明の音信号処理方法はさらに、ユーザの操作に応じて所定の信号を生成し、前記トリガ信号取得処理において、前記ユーザによる所定の操作に応じて前記信号生成処理により生成されるトリガ信号を取得する。
また、本発明の音信号処理方法はさらに、ユーザに対し発音を促す通知を行うとともに、前記通知に伴いトリガ信号を生成し、前記トリガ信号取得処理において、前記通知処理により生成されたトリガ信号を取得する。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号の所定周波数の成分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶されている音信号の所定周波数の成分のパワーを示す指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出する。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号の振幅値および前記トリガ信号取得処理によりトリガ信号が取得された時点において前記記憶されている音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出する。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点として特定する。
また、本発明の音信号処理方法において、前記特定処理は、所定のフレームに関し算出した前記S/N比が前記所定の条件を満たさない場合、前記記憶されている音信号を当該所定のフレームを用いて更新し、当該所定のフレームの後続のフレームについて前記S/N比を算出するときに、当該更新後の前記記憶されている音信号を用いる。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点として特定する。
また、本発明の音信号処理方法において、前記特定処理は、前記記憶されている音信号を所定時間長ごとに分割して得られる複数のフレームの各々について所定の属性値を算出し、前記算出した属性値が所定の条件を満たすフレームを前記S/N比の算出に用いない。
上記音信号処理装置及び音信号処理方法によれば、トリガ信号の取得前に取得され記憶されている音信号を環境雑音のみを示す音信号と見なしてS/N比を算出し、当該S/N比に基づき発音期間の特定が行われる結果、高い精度の特定結果が得られる。
本発明の実施形態にかかる音信号処理システムの構成を示すブロック図である。 本発明の実施形態にかかる第1バッファの構成を模式的に示した図である。 本発明の実施形態にかかる第2バッファの構成を模式的に示した図である。 本発明の実施形態にかかる周波数帯域の区分を示す図である。 本発明の実施形態にかかる開始時点の特定処理のフローを示す図である。 本発明の実施形態にかかる終了時点の特定処理のフローを示す図である。 本発明の実施形態にかかる発音期間の特定の様子を模式的に示した図である。
符号の説明
1 音信号処理システム
10 音信号処理装置
11 制御部
12 記憶部
13 音信号出力部
14 発振器
20 マイク
30 キーボード
40 音信号認識装置
111 音信号取得部
112 A/Dコンバータ
113 トリガ信号取得部
114 特定部
121 第1バッファ
122 第2バッファ
123 ノイズレベルデータ
124 サウンドレベルデータ
125 発音期間データ
1141 FFT部
1142 S/N比算出部
1143 条件判定部
[構成]
図1は本発明の実施形態にかかる音信号処理システム1の構成を示すブロック図である。音信号処理システム1は、取得した音信号における発音期間を特定して特定した発音期間の音信号を出力する音信号処理装置10、置かれた音空間における音を収音し音信号に変換して音信号処理装置10に対し出力するマイク20、複数のキーを有しユーザの当該キーに対する操作に応じて所定の信号を音信号処理装置10に対し出力するキーボード30、音信号処理装置10から出力される音信号の特徴量を抽出し予め記憶している特徴量と比較することにより音信号により示される音声の話者を特定する音信号認識装置40を備えている。
なお、キーボード30はユーザが音信号処理装置10に対し指示を与える装置の一例であり、マウスポインタ等の他の装置が用いられてもよい。また、音信号認識装置40は音信号処理装置10により出力される音信号を利用する装置の一例であり、楽音のピッチを特定する装置等の他の装置が用いられてもよい。
音信号処理装置10は、マイク20から音信号を取得して各種処理を行うとともに音信号処理装置10の他の構成部を制御する制御部11、制御部11による各種処理を指示するプログラムおよび制御部11により利用される各種データを記憶するとともに制御部11のワークエリアとして用いられる記憶部12、音信号を音信号認識装置40に対し出力する音信号出力部13、所定時間間隔でクロック信号を生成する発振器14を備えている。なお、音信号処理装置10の各構成部は発振器14により生成されるクロック信号により必要に応じて処理の同期や計時を行う。
制御部11は、マイク20から音信号を受け取る音信号取得部111、音信号取得部111が受け取った音信号をアナログ信号からデジタル信号に変換し所定時間長ごとのフレームに区分して記憶部12に順次記憶させるA/D(Analog to Digital)コンバータ112、キーボード30から所定の信号をトリガ信号として受け取るトリガ信号取得部113、トリガ信号取得部113によるトリガ信号の取得をトリガとして記憶部12に順次記憶される音信号における発音期間を特定する特定部114を備えている。
記憶部12がA/Dコンバータ112から受け取るフレームには、各フレームを識別するために時系列順にフレーム番号が採番される。以下の説明において、フレーム番号は4桁の整数であり、例えばフレーム番号「0001」のフレームをフレーム「0001」のように呼ぶ。なお、以下の説明において、A/Dコンバータ112により生成されるデジタル信号はPCM(Pulse Code Modulation)形式の音波形データであるものとするが、これに限られない。また、以下の説明においてA/Dコンバータ112により記憶部12に記憶される音信号のフレームの長さは10ミリ秒であるものとするが、これに限られない。
さらに、特定部114は記憶部12に順次記憶される音信号のフレームの各々に対しFFT(Fast Fourier Transform)アルゴリズムに従った処理を行い当該フレームに含まれる周波数成分を算出するFFT部1141、FFT部1141により算出された周波数成分の振幅を用いてフレームのS/N比を算出するS/N比算出部1142、S/N比算出部1142により算出されたS/N比が所定の条件を満たすか否かを順次判定することにより発音期間の開始時点および終了時点を特定する条件判定部1143を備えている。S/N比算出部1142および条件判定部1143による具体的な処理内容は後述の動作説明において述べる。
記憶部12には、音信号のフレームを一時的に格納するための領域として、第1バッファ121および第2バッファ122が設けられている。第1バッファ121は、音信号処理装置10が動作を開始してからトリガ信号取得部113によりトリガ信号が取得されるまでの間、および前回の発音期間の特定処理がユーザの操作等により終了された後から再びトリガ信号取得部113によりトリガ信号が取得されるまでの間、A/Dコンバータ112により順次生成されるフレームを過去の所定時間長分だけ格納するための領域である。以下、第1バッファ121にフレームの格納が行われる期間を「待機期間」と呼ぶ。また、以下の説明において第1バッファ121に格納可能なフレームは10個、すなわち100ミリ秒分であるものとするが、これに限られない。
図2は第1バッファ121の構成を模式的に示した図である。第1バッファ121は10個の領域に分割されており、各領域は「−0010」乃至「−0001」の番号により識別される。以下、例えば番号「−0010」により識別される領域を領域「−0010」のように呼ぶ。第1バッファ121において、領域「−0010」に格納されるフレームが最も古く、領域「−0001」に格納されるフレームが最も新しくなるように、取得順にフレームが各領域に格納される。なお、図2においては、領域「−0010」乃至「−0001」にフレーム「0085」乃至「0094」が各々格納されている様子が例示されている。
待機期間中、記憶部12は10ミリ秒間隔でA/Dコンバータ112から新たなフレームを受け取り、FIFO(First−In First−Out)により第1バッファ121の内容を継続的に更新する。なお、図2においては領域「−0010」乃至「−0001」が固定的な位置に描かれているが、記憶部12における各領域の物理的な位置は固定される必要はなく、例えば記憶部12の任意の記憶領域に記憶されたフレームをポインタにより参照することにより、第1バッファ121が実現されてもよい。その場合、ポインタを更新することにより第1バッファ121の内容更新が高速に行われる。
第2バッファ122は、トリガ信号取得部113によりトリガ信号が取得された後、ユーザの操作等により発音期間の特定処理が終了されるまでの間、A/Dコンバータ112により順次生成されるフレームを過去の所定時間長分だけ記憶するための領域である。以下、第2バッファ122にフレームの格納が行われる期間を「判定期間」と呼ぶ。なお、以下の説明において第2バッファ122に格納可能なフレームは6000個、すなわち60秒分であるものとするが、これに限られない。
図3は第2バッファ122の構成を模式的に示した図である。第2バッファ122は6000個の領域、すなわち領域「0001」乃至「6000」に分割されている。第2バッファ122において、領域「0001」に格納されるフレームが最も古く、領域「6000」に格納されるフレームが最も新しくなるように、取得順にフレームが各領域に格納される。なお、図3においては、領域「0001」、「0002」、「0003」・・・にフレーム「0095」、「0096」、「0097」・・・が各々格納されている様子が例示されている。また、図3に示される領域「5996」乃至「6000」が空欄となっているのは、図3が判定期間の開始後まだ60秒が経過しておらず、第2バッファ122の末尾付近の領域に未だフレームが格納されていない状態を例示しているためである。
判定期間中、記憶部12は10ミリ秒間隔でA/Dコンバータ112から新たなフレームを受け取り、FIFOにより第2バッファ122の内容を継続的に更新する。なお、第2バッファ122に含まれる各領域の物理的な位置が固定される必要はない点は、第1バッファ121の場合と同様である。
記憶部12には、さらに、判定期間中にS/N比算出部1142により生成されるノイズレベルデータ123およびサウンドレベルデータ124が一時的に格納される。ノイズレベルデータ123は、トリガ信号取得部113によりトリガ信号が取得された時点において第1バッファ121に記憶されているフレームの振幅に関する属性値を示すデータである。一方、サウンドレベルデータ124は判定期間中に第2バッファ122に順次格納されるフレームの振幅に関する属性値を示すデータである。ノイズレベルデータ123およびサウンドレベルデータ124の具体的内容は後述の動作説明において述べる。
また、記憶部12には、判定期間中に条件判定部1143により生成される発音期間データ125が一時的に格納される。発音期間データ125は発音期間の先頭のフレーム番号および末尾のフレーム番号を示すデータである。発音期間データ125により、先頭のフレームの開始時点が発音期間の開始時点として特定され、同様に末尾のフレームの終了時点が発音期間の終了時点として特定される。なお、発音期間データ125の形式はフレーム番号を用いるものに限られず、例えば発音期間の開始時点および終了時点を時刻データにより特定する等、他に様々なものが考えられる。
[動作]
続いて、音信号処理システム1の動作を説明する。今、音信号処理システム1のユーザは端末装置(図示略)を利用するために、音信号認識装置40による本人認証を受ける必要があるものとする。
ユーザは、本人認証を受けるためにキーボード30に対し所定の操作を行い、音信号処理装置10に対し本人認証の処理を指示するが、そのユーザの操作に先立ち、マイク20は常時、音信号処理システム1の配置された音空間の音を示す音信号を音信号処理装置10に対し出力している。音信号処理装置10の音信号取得部111はマイク20から音信号を受け取ると、受け取った音信号を順次、A/Dコンバータ112に引き渡している。そして、A/Dコンバータ112は音信号取得部111から音信号を受け取ると、受け取った音信号をデジタル信号に変換した後、記憶部12に順次引き渡し、フレーム単位で記憶させている。この場合、トリガ信号取得部113はまだトリガ信号を受け取っていないので、待機期間中である。従って、A/Dコンバータ112は記憶部12に対し、送信する音信号を第1バッファ121に格納するように指示している。その結果、第1バッファ121には常に待機期間中における直近の最大10フレーム分の音信号が格納されていることになる。このように第1バッファ121に格納されている音信号は、未だユーザによる発音(発声)が行われていない状態における音空間内の音、すなわち環境雑音の音を示す音信号である。
上記の状態において、ユーザがキーボード30に対し所定の操作を行い、音信号処理装置10に対し本人認証の処理を指示すると、キーボード30はユーザの操作に応じてトリガ信号を生成し音信号処理装置10に対し出力する。音信号処理装置10のトリガ信号取得部113はキーボード30からトリガ信号を受け取ると、受け取ったトリガ信号をA/Dコンバータ112および特定部114に送信する。
A/Dコンバータ112は、トリガ信号取得部113からトリガ信号を受け取ると、その後、生成する音信号を記憶部12に記憶させる際、第2バッファ122に記憶するように指示する。その結果、第2バッファ122には常に判定期間中における直近の最大6000フレーム分の音信号が格納されていることになる。また、判定期間中において、待機期間中に格納された第1バッファ121の内容は保持されている。
一方、特定部114はトリガ信号取得部113からトリガ信号を受け取ると、第2バッファ122に順次格納される音信号における発音期間の特定処理を開始する。まず、FFT部1141は、第1バッファ121に記憶されている直近のフレーム、すなわち領域「−0001」に格納されているフレームに関し、FFT処理を行い、各々のフレームの音信号に含まれる各周波数の成分を示す複素数を算出する。以下、説明のため、第1バッファ121の領域「−0001」に格納されているフレームがフレーム「0094」であるものとする。
以下の説明において、FFT部1141はFFT処理により、複数の周波数の成分を示す複素数(R1+I1i)、(R2+I2i)、(R3+I3i)、・・・、(RN+INi)を算出するものとする。ただし、ここで「i」は虚数単位であり、RnおよびIn(nは1〜N、NはFFTbinの数)はそれぞれ実数部および虚数部の数値である。
FFT部1141は上記のように算出した周波数成分を示す複素数群をS/N比算出部1142に送信する。S/N比算出部1142は、FFT部1141から受け取った複素数群を用いて、複数の周波数帯域に含まれる周波数の複素数群から、予め区分された複数の周波数帯域ごとに、音信号の成分に関する振幅の指標を算出する。以下の説明においては、S/N比算出部1142は図4に示す5つの周波数帯域の各々に関し、以下の(式1)乃至(式5)に従って周波数帯域ごとのパワー:Fm(mは周波数帯域番号)を算出する。ここで、bm:所望帯域の最低周波数に対応するFFTbinの番号、em:所望帯域の最高周波数に対応するFFTbinの番号とする。
Figure 2007017993
以下、FFT部1141およびS/N比算出部1142によりフレーム「0094」に格納されているフレームに関し上記のように算出されたF1、F2、・・・、F5をF0094_1、F0094_2、・・・、F0094_5のように呼ぶ。
続いて、FFT部1141およびS/N比算出部1142は、第1バッファ121の領域「−0002」乃至「−0005」に格納されているフレームの各々に関しても、同様に周波数帯域ごとのパワー、すなわちF0093_1乃至F0093_5、F0092_1乃至F0092_5、F0091_1乃至F0091_5、F0090_1乃至F0090_5を算出する。
続いて、S/N比算出部1142は以下の(式6)に従って周波数帯域ごとのノイズレベル:NLm(mは周波数帯域番号)を算出する。ただし、(式6)におけるtはフレーム番号を示し、この場合k=0090である。
Figure 2007017993
S/N比算出部1142は上記のようにNL1乃至NL5を算出すると、それらの数値群を示すデータをノイズレベルデータ123として記憶部12に記憶させる。このように記憶部12に記憶されるノイズレベルデータ123は、環境雑音のレベルを所定の周波数帯域ごとに示すデータである。
続いて、FFT部1141は第2バッファ122に新たに格納されたフレーム、すなわちフレーム「0095」に関し、上述した第1バッファ121に格納されたフレームに関するものと同様の処理を行い、周波数成分を示す複素数群を算出する。S/N比算出部1142はFFT部1141によりフレーム「0095」に関し算出された複素数群を用いて、上記(式1)乃至(式5)に従って、周波数帯域ごとのパワー、すなわちF0095_1、F0095_2、・・・、F0095_5を算出する。
S/N比算出部1142は上記のようにF0095_1乃至F0095_5を算出すると、それらの数値群を示すデータをサウンドレベルデータ124として記憶部12に記憶させる。このように記憶部12に記憶されるサウンドレベルデータ124は、現時点の音空間における音のレベルを所定の周波数帯域ごとに示すデータである。
S/N比算出部1142は、上記のように記憶部12に記憶したノイズレベルデータ123およびサウンドレベルデータ124を用いて、以下の(式7)に従って、S/N比:SNRを算出する。ただし、(式7)におけるSはサウンドレベルデータ124の算出に用いられたフレーム番号を示し、この場合S=0095である。
Figure 2007017993
FFT部1141およびS/N比算出部1142は、第2バッファ122に新たなフレームが格納されるごとに、上記(式7)に従い、新たに格納されたフレームに関するSNRを算出する。なお、判定期間中に第1バッファ121に格納されている音信号は変更されないので、第2バッファ122に格納されるフレーム「0096」以降に関するSNRの算出においては、既に記憶部12に記憶されているノイズレベルデータ123が利用される。
上記のようにS/N比算出部1142により算出されるSNRは、環境雑音のレベルに対する現時点の音空間における音のレベルの比を示す指標である。従って、ユーザにより発声がなされていない間に算出されるSNRは1の近傍を示し、ユーザにより発声がなされている間に算出されるSNRは1よりかなり大きな数値を示すことになる。そこで、条件判定部1143はS/N比算出部1142により順次算出されるSNRに基づき、発音期間の特定処理を以下のように行う。
条件判定部1143による発音期間の特定処理は、発音期間の開始時点を特定するための処理と、発音期間の終了時点を特定するための処理に区分される。図5は開始時点の特定処理のフローを、図6は終了時点の特定処理のフローを、それぞれ示している。
まず、条件判定部1143は発音期間の特定処理に先立ち、予め以下の定数をパラメータとして記憶部12に記憶している。
(a)開始閾値
(b)開始満了回数
(c)開始猶予回数
(d)終了閾値
(e)終了満了回数
開始閾値は、SNRがその値を超えた場合に、そのSNRの算出に用いられたフレームが発音期間中のフレームである可能性が高いことを示す閾値である。以下の説明において、開始閾値=2.0であるものとする。
開始満了回数は、その回数を超えてSNRが開始閾値を超えた場合に、最初に開始閾値を超えたSNRに対応するフレームを発音期間の先頭フレームと判定するための回数である。以下の説明において、開始満了回数=5であるものとする。
開始猶予回数は、いったん発音期間の開始時点の特定処理が開始された後、SNRが開始閾値を超えるか否かの判定がその回数を超えても開始時点の特定がなされない場合に、再度、それ以降のSNRに関し発音期間の開始時点の特定処理をやり直すための回数である。以下の説明において、開始猶予回数=10であるものとする。
終了閾値は、SNRがその値を下回った場合に、そのSNRの算出に用いられたフレームが非発音期間のフレームである可能性が高いことを示す閾値である。以下の説明において、終了閾値=1.2であるものとする。
終了満了回数は、その回数を超えてSNRが終了閾値を下回った場合に、最初に終了閾値を下回ったSNRに対応するフレームを発音期間の末尾フレームと判定するための回数である。以下の説明において、終了満了回数=15であるものとする。
条件判定部1143は、判定期間になると、まず以下の変数を初期化する(ステップS100)。
(f)開始時点データ
(g)試行カウンタ
(h)開始閾値超過カウンタ
開始時点データは、発音期間の先頭のフレームのフレーム番号が格納される変数であり、そのフレーム番号の開始時点が発音期間の開始時点を示す。初期化により、開始時点データには例えば未特定値を示す「Null」が代入される。
試行カウンタは、ステップS100の初期化処理の後、SNRを開始閾値「2.0」と比較した回数をカウントするカウンタである。また、開始閾値超過カウンタはSNRが開始閾値「2.0」を超えた回数をカウントするカウンタである。初期化により、試行カウンタおよび開始閾値超過カウンタにはそれぞれ「0」が代入される。
条件判定部1143はS/N比算出部1142から新たなSNRを取得すると(ステップS101)、試行カウンタに1を加算した後(ステップS102)、ステップS101において取得したSNRが開始閾値「2.0」を超えているか否かを判定する(ステップS103)。SNRが開始閾値「2.0」を超えていない場合(ステップS103:No)、条件判定部1143は試行カウンタが開始猶予回数「10」を超えているか否かを判定する(ステップS104)。
試行カウンタが開始猶予回数「10」を超えていない場合(ステップS104:No)、条件判定部1143は処理をステップS101に戻し、次のSNRに関しステップS101以降の処理を繰り返す。
一方、開始時点の特定がなされないまま、ステップS101以下の処理が繰り返され、ステップS102において試行カウンタの値が増加される結果、11になると、ステップS104の判定結果がYesとなる。その場合、条件判定部1143は処理をステップS100に戻し、再度、それ以降のSNRに関し発音期間の開始時点の特定処理をやり直す。
ユーザは発声を行わない間は、SNRが開始閾値「2.0」を超えないため、条件判定部1143は上記のステップS100乃至ステップS104の処理を繰り返す。そのような状態でユーザが発声を開始すると、ステップS103の判定における結果がYesとなる。その場合、続いて条件判定部1143は開始閾値超過カウンタが「0」であるか否かを判定する(ステップS105)。この場合、開始閾値超過カウンタは「0」であるので(ステップS105:Yes)、条件判定部1143は開始時点データに最後に取得したSNRの算出に用いられたフレーム番号を代入する(ステップS106)。このように代入されるフレーム番号は、発音期間の開始時点を示すフレーム番号の候補である。
続いて、条件判定部1143は開始閾値超過カウンタに1を加算した後(ステップS107)、開始閾値超過カウンタが開始満了回数「5」を超えているか否かを判定する(ステップS108)。この場合、開始閾値超過カウンタは「1」でありステップS108の判定結果はNoとなるため、条件判定部1143は処理をステップS101に戻し、新たなSNRに関しステップS101以降の処理を繰り返す。
通常、ユーザにより発声が開始され、いったんステップS103における判定結果がYesとなると、後続のフレームに関するSNRに関するステップS103における判定結果もしばらくの間、Yesとなる。ユーザの一続きの発声時間は数秒間に渡り、一方、各フレームの長さは10ミリ秒と短いためである。その結果、再びステップS103の判定結果がYesとなり、ステップS105の判定がなされる場合、既に開始閾値超過カウンタは「1」以上となっているため、その判定結果はNoとなる。その場合、条件判定部1143はステップS106の開始時点データの設定を行わず、ステップS107以降の処理を行う。既に仮設定されている発音期間の開始を示すフレーム番号を変更する必要がないためである。
ステップS103におけるSNRと開始閾値との比較による判定結果が繰り返しYesとなり、ステップS105以降の処理が繰り返され、ステップS107において開始閾値超過カウンタの値が増加される結果、6になると、ステップS108の判定結果がYesとなる。その場合、条件判定部1143はその時点で開始時点データに格納されているフレーム番号を発音期間の先頭フレームを示すフレーム番号として確定し、処理を発音期間の終了時点の特定処理のフローに移す。
ところで、いったんステップS103の判定結果がYesとなっても、例えば一単語の発音における音節間において、短い時間ではあるが発声が途切れたり、発声のレベルが低くなったりする場合がある。そのような場合、ステップS103の判定結果が一時的にNoとなるが、後続のSNRに関するステップS103の判定結果がYesとなるため、それらのフレームは一連の発音期間のフレームと判断されることになる。
一方、例えばユーザが物を落とした等により大きな雑音が発生し、発声ではない音によりSNRが一時的に高くなるような場合がある。そのような場合、ステップS103の判定結果が一時的にYesとなるが、後続のSNRに関するステップS103の判定結果がNoとなり、試行カウンタが10を超えた時点で開始時点データに仮設定されていたフレーム番号も初期化されるため、誤ってそのような雑音の発生時点が発音期間の開始時点と判断されることはない。
上記のように、発音期間の開始時点の特定処理が完了すると、条件判定部1143は続いて図6に示される発音期間の終了時点の特定処理を開始する。条件判定部1143はまず、以下の変数を初期化する(ステップS200)。
(i)終了時点データ
(j)終了閾値未満カウンタ
終了時点データは、発音期間の末尾のフレームのフレーム番号が格納される変数であり、そのフレーム番号の終了時点が発音期間の終了時点を示す。初期化により、終了時点データには例えば未特定値を示す「Null」が代入される。
終了閾値未満カウンタはSNRが終了閾値「1.2」を下回った回数をカウントするカウンタである。初期化により、終了閾値未満カウンタには「0」が代入される。
条件判定部1143はS/N比算出部1142から新たなSNRを取得すると(ステップS201)、ステップS201において取得したSNRが終了閾値「1.2」を下回っているか否かを判定する(ステップS202)。SNRが終了閾値「1.2」を下回っていない場合(ステップS202:No)、条件判定部1143は続いて当該SNRが開始閾値「2.0」を超えているか否かを判定する(ステップS203)。
ユーザが発声中においては、SNRが開始閾値「2.0」を超える可能性が高く、その場合、ステップS203の判定結果はYesとなり、条件判定部1143は処理をステップS200に移し、再び、終了時点の特定処理をやり直す。また、ユーザが発声中であって、発音がやや小さくなったりした場合には、SNRが開始閾値「2.0」以下であるが、終了閾値「1.2」以上となることがある。そのような場合(ステップS203:No)、条件判定部1143は変数の初期化は行わず、処理をステップS201に戻し、新たなSNRに関しステップS201以降の処理を繰り返す。
ユーザが発声を行っている間は、SNRが終了閾値「1.2」を下回らないため、条件判定部1143は上記のステップS200乃至ステップS203の処理を繰り返す。そのような状態でユーザが発声を終了すると、ステップS202の判定における結果がYesとなる。その場合、続いて条件判定部1143は終了閾値未満カウンタが「0」であるか否かを判定する(ステップS204)。この場合、終了閾値未満カウンタは「0」であるので(ステップS204:Yes)、条件判定部1143は終了時点データに最後に取得したSNRの算出に用いられたフレーム番号から1を減じた番号を代入する(ステップS205)。このように代入されるフレーム番号は、発音期間の終了時点を示すフレーム番号の候補である。
続いて、条件判定部1143は終了閾値未満カウンタに1を加算した後(ステップS206)、終了閾値未満カウンタが終了満了回数「15」を超えているか否かを判定する(ステップS207)。この場合、終了閾値未満カウンタは「1」でありステップS207の判定結果はNoとなるため、条件判定部1143は処理をステップS201に戻し、新たなSNRに関しステップS201以降の処理を繰り返す。
その後、ユーザがすぐさま発声を開始しない限り、再びステップS202の判定結果がYesとなる。その場合、ステップS204の判定においては、既に終了閾値未満カウンタが「1」以上となっているため、その判定結果がNoとなる。その場合、条件判定部1143はステップS205の終了時点データの設定を行わず、ステップS206以降の処理を行う。既に仮設定されている発音期間の終了を示すフレーム番号を変更する必要がないためである。
ステップS202におけるSNRと終了閾値との比較による判定結果が繰り返しYesとなり、ステップS204以降の処理が繰り返され、ステップS206において終了閾値未満カウンタの値が増加される結果、31になると、ステップS207の判定結果がYesとなる。その場合、条件判定部1143はその時点で終了時点データに格納されているフレーム番号を発音期間の末尾フレームを示すフレーム番号として確定し、開始時点データおよび終了時点データの組み合わせを発音期間データ125として記憶部12に記憶させる(ステップS208)。その後、条件判定部1143は音信号出力部13に対し音信号の出力を指示した後(ステップS209)、次の発音期間を特定するために、再び図5に示した発音期間の特定処理に戻る。図7は、上述した特定部114による発音期間の特定の様子を模式的に示した図である。
音信号出力部13は、条件判定部1143から音信号の出力を指示されると、第2バッファ122から、発音期間データ125に含まれる開始時点データにより示されるフレーム番号を先頭とし、終了時点データにより示されるフレーム番号を末尾とする一連のフレーム群を読み出し、音信号認識装置40に対し出力する。特定部114は例えば、ユーザにより発音期間の特定処理の終了指示がなされるか、トリガ信号の取得時点の後、発音期間の特定処理の最大時間として予め設定された時間が経過するまでの間、図5および図6に示した判定期間における一連の処理を繰り返す。
音信号認識装置40は音信号出力部13から受け取った音信号に対し特徴量抽出を行い、予め記憶されている特徴量と、新たに抽出したユーザの音声に関する特徴量とを比較することにより、ユーザの本人認証を行う。その場合、音信号認識装置40が音信号出力部13から受け取る音信号は、ユーザの発声期間に応じた部分が正しく切り出された音信号であるため、精度の高い本人認証が行われることになる。
上述したように、音信号処理システム1によれば、環境雑音の変化が予測不可能な状況においても、ユーザによる本人認証の処理の指示をトリガとして、そのトリガの発生直前に取得された音信号を環境雑音を示す音信号として用いる結果、トリガの発生後の音信号における発音期間の特定を高い精度で行うことが可能となる。
[変形例]
ところで、上述した実施形態は以下のように様々に変形してもよい。まず、上記説明においては、トリガ信号はユーザのキーボード30に対する操作に応じて生成されるものとした。それに代えて、例えば、音信号処理装置10が画像や文字でユーザにメッセージを通知するディスプレイや音でユーザにメッセージを通知するサウンドシステム等の通知手段を備えるようにし、ユーザの操作を待つことなく、例えば予め定められた時刻においてそれらの通知手段を用いてユーザに対し発声を促す通知を行うと同時に、トリガ信号を生成しトリガ信号取得部113に該トリガ信号を送信する渡すようにしてもよい。
また、上記説明においては、複数の周波数帯域ごとにノイズレベルを示すNLmおよびサウンドレベルを示すFmを算出した後、周波数帯域ごとのFm/NLmの平均値を算出することによりSNRを算出するものとした(式1乃至7参照)。それに代えて、例えば、S/N比算出部1142が全周波数帯域に関するNLおよびFを各1つずつ算出した後、SNR=F/NLとして算出するようにしてもよい。すなわち、周波数帯域の区分数は1であってもよい。
また、上記説明においては、音信号に対しFFT部1141がFFT処理を施し、S/N比算出部1142が各周波数の振幅を算出することにより、周波数帯域ごとのパワーを示すFmを算出するものとした。それに代えて、例えば、特定部114がFFT部1141の代わりに周波数帯域ごとのバンドパスフィルタを備えるようにし、各バンドパスフィルタにより濾波された音信号の振幅の平均値を上記(式6)および(式7)におけるFmの代わりに用いることにより、SNRを算出するようにしてもよい。
さらに、FFT部1141やバンドパスフィルタを用いることなく、第1バッファ121に格納されているフレームに含まれる音信号の振幅の平均値で第2バッファ122に格納されているフレームに含まれる音信号の振幅の平均値を単純に除すことにより、SNRを算出するようにしてもよい。
また、上記説明においては、S/N比算出部1142は各周波数成分のパワーを示すFmを上記(式1)乃至(式5)に従い算出するものとした。それに代えて、例えば、以下の(式8)もしくは(式9)に従いFmを算出するようにしてもよい。ただし、(式9)における「abs()」は()内の数値の絶対値を示す。
Figure 2007017993
また、上記説明においては、SNRを算出するにあたり、周波数帯域ごとに算出されたFm/NLmを単純平均するものとした(式7参照)。それに代えて、例えば、ユーザにより発音される音が有する割合が高いと予想される周波数成分を含む周波数帯域に関するFm/NLmに相対的に大きな値が設定されたウェイトを用いて、S/N比算出部1142がFm/NLmの加重平均を行うことにより、SNRを算出するようにしてもよい。
また、上記説明においては、トリガ信号が取得された後に第1バッファ121の内容が変更されることはなく、いったんノイズレベルを示すNLm(式6参照)が算出されると、その後の発音期間の特定処理においてNLmが更新されることはないものとした。それに代えて、例えば、図5のステップS103におけるSNRが開始閾値を超えるか否かの判定結果がNoとなり、そのSNRの算出に用いられたフレームが非発音期間のものであることが確定した時点で、そのフレームを直近の環境雑音を示すフレームとして第1バッファ121に格納することにより、第1バッファ121の内容を更新するようにしてもよい。その場合、FFT部1141およびS/N比算出部1142は更新された第1バッファ121のフレームを用いてNLmを再計算し、その後は再計算されたNLmを用いてSNRの算出を行う。
また、上記説明においては、ノイズレベルを示すNLm(式6参照)を算出するにあたり、第1バッファ121に格納されている直近の5フレームを固定的に選択するものとした。それに代えて、例えば、第1バッファ121に格納されているフレームの中から異常値を示すフレームを除外し、適当と思われるフレームを選択してNLmの算出に用いるようにしてもよい。具体例を挙げると、FFT部1141は第1バッファ121に格納されている10フレームの全てに関しFFT処理を施す。そして、S/N比算出部1142はそれら10フレームの全てに関し周波数帯域ごとのパワーを示すFmを算出する。そして、S/N比算出部1142はそのようにして算出したFmの平均値から所定の閾値以上に乖離するFmを異常値として除外し、除外しなかったFmを用いてNLmを算出するようにすればよい。
また、上記説明においては、第1バッファ121に格納されているフレームの各々に関し算出した周波数帯域ごとのパワーを示すFmを単純平均することによりノイズレベルを示すNLmを算出するものとした(式6参照)。それに代えて、例えば、新しいフレームほど大きなウェイトを与え、S/N比算出部1142が各フレームに関するFmを加重平均することによりNLmを算出するようにしてもよい。
また、上記説明においては、開始閾値、開始満了回数、開始猶予回数、終了閾値および終了満了回数は予め音信号処理装置10に記憶されているものとしたが、例えば、ユーザの操作に応じてこれらの定数を変更可能としてもよい。
また、上記説明においては、マイク20、キーボード30および音信号認識装置40は音信号処理装置10とは異なる筐体に配置されているものとしたが、これらの配置は自由に変更可能である。例えば、音信号処理装置10が音信号認識装置40を構成部として備えるようにしてもよい。
また、音信号処理装置10は、専用のハードウェアにより実現されてもよいし、音信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。音信号処理装置10が汎用コンピュータにより実現される場合、制御部11は汎用コンピュータが備えるCPU(Central Processing Unit)およびCPUの制御下で動作するDSP(Digital Signal Processor)が、アプリケーションプログラムに含まれる各モジュールに従った処理を同時並行して行うことにより、汎用コンピュータの機能として実現される。
本発明を詳細にまた特定の実施態様を参照して説明してきたが、本発明の精神、範囲または意図の範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本発明は、2005年7月15日出願の日本特許出願(特願2000−207798)に基づくものであり、その内容はここに参照として取り込まれる。
本発明の音信号処理装置及び音信号処理方法によれば、トリガ信号の取得前に取得され記憶されている音信号を環境雑音のみを示す音信号と見なしてS/N比を算出し、当該S/N比に基づき発音期間の特定が行われる結果、高い精度の特定結果が得られる。

Claims (18)

  1. 音信号処理装置は、
    継続的に音信号を取得する音信号取得手段と、
    現時点を終点とする所定期間において前記音信号取得手段により取得された音信号を記憶する記憶手段と、
    トリガ信号を取得するトリガ信号取得手段と、
    前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号を用いてサウンドレベルの指標値を算出し、前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶されている音信号を用いてノイズレベルの指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことによりS/N比を算出し、前記S/N比が所定の条件を満たすか否かを判定することにより、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号のうち発音期間の音を示す部分を特定する特定手段と、
    を備える。
  2. 請求項1に記載の音信号処理装置はさらに、ユーザの操作に応じて所定の信号を生成する操作手段を備え、
    前記トリガ信号取得手段は、前記ユーザによる所定の操作に応じて前記操作手段により生成されるトリガ信号を取得する。
  3. 請求項1に記載の音信号処理装置はさらに、ユーザに対し発音を促す通知を行うとともに、前記通知に伴いトリガ信号を生成する通知手段を備え、
    前記トリガ信号取得手段は、前記通知手段により生成されたトリガ信号を取得する。
  4. 請求項1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号の所定周波数の成分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶されている音信号の所定周波数の成分のパワーを示す指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出する。
  5. 請求項1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号の振幅値および前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶されている音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出する。
  6. 請求項1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点として特定する。
  7. 請求項6に記載の音信号処理装置であって、前記特定手段は、所定のフレームに関し算出した前記S/N比が前記所定の条件を満たさない場合、前記記憶手段に記憶されている音信号を当該所定のフレームを用いて更新し、当該所定のフレームの後続のフレームについて前記S/N比を算出するときに、当該更新後の前記記憶手段に記憶されている音信号を用いる。
  8. 請求項1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点として特定する。
  9. 請求項1に記載の音信号処理装置であって、前記特定手段は、前記記憶手段に記憶されている音信号を所定時間長ごとに分割して得られる複数のフレームの各々について所定の属性値を算出し、前記算出した属性値が所定の条件を満たすフレームを前記S/N比の算出に用いない。
  10. 音信号処理方法は、
    継続的に音信号を取得し、
    現時点を終点とする過去の所定期間において取得した音信号を記憶し、
    トリガ信号を取得し、
    前記トリガ信号を取得した時点後に取得した音信号を用いてサウンドレベルの指標値を算出し、
    前記トリガ信号を取得した時点において記憶している音信号を用いてノイズレベルの指標値を算出し、
    前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことによりS/N比を算出し、
    前記S/N比が所定の条件を満たすか否かを判定し、
    前記判定処理に基づいて、前記トリガ信号を取得した時点後に取得した音信号のうち発音期間の音を示す部分を特定する。
  11. 請求項10に記載の音信号処理方法はさらに、ユーザの操作に応じて所定の信号を生成し、
    前記トリガ信号取得処理において、前記ユーザによる所定の操作に応じて前記信号生成処理により生成されるトリガ信号を取得する。
  12. 請求項10に記載の音信号処理方法はさらに、ユーザに対し発音を促す通知を行うとともに、前記通知に伴いトリガ信号を生成し、
    前記トリガ信号取得処理において、前記通知処理により生成されたトリガ信号を取得する。
  13. 請求項10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号の所定周波数の成分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶されている音信号の所定周波数の成分のパワーを示す指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出する。
  14. 請求項10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号の振幅値および前記トリガ信号取得処理によりトリガ信号が取得された時点において前記記憶されている音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそれぞれ算出する。
  15. 請求項10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点として特定する。
  16. 請求項15に記載の音信号処理方法であって、前記特定処理は、所定のフレームに関し算出した前記S/N比が前記所定の条件を満たさない場合、前記記憶されている音信号を当該所定のフレームを用いて更新し、当該所定のフレームの後続のフレームについて前記S/N比を算出するときに、当該更新後の前記記憶されている音信号を用いる。
  17. 請求項10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が取得された時点後に前記音信号取得処理により取得された音信号を所定時間長ごとに分割して得られる複数のフレームの各々について前記S/N比を算出し、当該S/N比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点として特定する。
  18. 請求項10に記載の音信号処理方法であって、前記特定処理は、前記記憶されている音信号を所定時間長ごとに分割して得られる複数のフレームの各々について所定の属性値を算出し、前記算出した属性値が所定の条件を満たすフレームを前記S/N比の算出に用いない。
JP2007506392A 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法 Expired - Fee Related JP5388447B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007506392A JP5388447B2 (ja) 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005207798 2005-07-15
JP2005207798 2005-07-15
PCT/JP2006/312917 WO2007017993A1 (ja) 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法
JP2007506392A JP5388447B2 (ja) 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法

Publications (2)

Publication Number Publication Date
JPWO2007017993A1 true JPWO2007017993A1 (ja) 2009-02-19
JP5388447B2 JP5388447B2 (ja) 2014-01-15

Family

ID=37727184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007506392A Expired - Fee Related JP5388447B2 (ja) 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法

Country Status (6)

Country Link
US (1) US8300834B2 (ja)
EP (1) EP1906385A4 (ja)
JP (1) JP5388447B2 (ja)
KR (1) KR20080009331A (ja)
CN (1) CN101194304B (ja)
WO (1) WO2007017993A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4840149B2 (ja) * 2007-01-12 2011-12-21 ヤマハ株式会社 発音期間を特定する音信号処理装置およびプログラム
JP5157837B2 (ja) 2008-11-12 2013-03-06 ヤマハ株式会社 ピッチ検出装置およびプログラム
JP2012027186A (ja) * 2010-07-22 2012-02-09 Sony Corp 音声信号処理装置、音声信号処理方法及びプログラム
KR101811643B1 (ko) * 2010-12-23 2017-12-26 한국전자통신연구원 기지국에서의 무선 링크 실패 결정 방법
GB2522836A (en) * 2013-12-02 2015-08-12 Neul Ltd Interference mitigation
GB201510032D0 (en) * 2015-06-09 2015-07-22 Kp Acoustics Ltd Integrated sensor system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797616B2 (ja) 1990-03-16 1998-09-17 松下電器産業株式会社 雑音抑圧装置
US5617508A (en) 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
JP2856012B2 (ja) 1992-12-24 1999-02-10 岩崎通信機株式会社 音声検出装置
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
CN1064159C (zh) * 1994-07-18 2001-04-04 松下电器产业株式会社 语音检测装置
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH11109989A (ja) 1997-10-02 1999-04-23 Toyota Motor Corp 音声認識装置
JP2000029486A (ja) 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
JP2000163098A (ja) 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP3434730B2 (ja) 1999-05-21 2003-08-11 Necエレクトロニクス株式会社 音声認識方法および装置
JP2001075594A (ja) 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
JP2002073061A (ja) 2000-09-05 2002-03-12 Matsushita Electric Ind Co Ltd 音声認識装置及びその方法
JP4615166B2 (ja) 2001-07-17 2011-01-19 パイオニア株式会社 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
JP2004094077A (ja) 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム

Also Published As

Publication number Publication date
EP1906385A4 (en) 2009-07-22
US20090103740A1 (en) 2009-04-23
CN101194304A (zh) 2008-06-04
JP5388447B2 (ja) 2014-01-15
WO2007017993A1 (ja) 2007-02-15
KR20080009331A (ko) 2008-01-28
US8300834B2 (en) 2012-10-30
CN101194304B (zh) 2011-06-22
EP1906385A1 (en) 2008-04-02

Similar Documents

Publication Publication Date Title
CN110808039B (zh) 信息处理装置、信息处理方法以及记录介质
KR101616054B1 (ko) 음성 검출 장치 및 방법
JP5388447B2 (ja) 発音期間を特定する音信号処理装置および音信号処理方法
JP5708155B2 (ja) 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
EP1355296A2 (en) Keyword detection in a speech signal
JPS62231997A (ja) 音声認識システム及びその方法
EP2083417A2 (en) Sound processing device and program
US20160322046A1 (en) Method and apparatus for automatic speech recognition
JP2001092496A (ja) 連続音声認識装置および記録媒体
JP2005534983A (ja) 自動音声認識の方法
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
KR20080014680A (ko) 제곱근 디스카운트를 이용한 통계적 언어에 의한 음성 인식방법 및 시스템
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP4840149B2 (ja) 発音期間を特定する音信号処理装置およびプログラム
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP5157474B2 (ja) 音処理装置およびプログラム
JP2003058184A (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2008158316A (ja) 音信号処理装置およびプログラム
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP5157475B2 (ja) 音処理装置およびプログラム
JP4807261B2 (ja) 音声処理装置およびプログラム
JPH0744163A (ja) 自動採譜装置
JP2024015817A (ja) 閾値生成方法、閾値生成装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131008

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees