JPWO2010070840A1 - 音声検出装置、音声検出プログラムおよびパラメータ調整方法 - Google Patents

音声検出装置、音声検出プログラムおよびパラメータ調整方法 Download PDF

Info

Publication number
JPWO2010070840A1
JPWO2010070840A1 JP2010542839A JP2010542839A JPWO2010070840A1 JP WO2010070840 A1 JPWO2010070840 A1 JP WO2010070840A1 JP 2010542839 A JP2010542839 A JP 2010542839A JP 2010542839 A JP2010542839 A JP 2010542839A JP WO2010070840 A1 JPWO2010070840 A1 JP WO2010070840A1
Authority
JP
Japan
Prior art keywords
speech
section
sections
determination result
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010542839A
Other languages
English (en)
Other versions
JP5299436B2 (ja
Inventor
隆行 荒川
隆行 荒川
剛範 辻川
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010542839A priority Critical patent/JP5299436B2/ja
Publication of JPWO2010070840A1 publication Critical patent/JPWO2010070840A1/ja
Application granted granted Critical
Publication of JP5299436B2 publication Critical patent/JP5299436B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

判定結果導出手段74は、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、その判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する。区間数算出手段75は、音声区間および非音声区間の数を算出する。継続長閾値更新手段76は、算出した音声区間数と正解音声区間数との差分または算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する。

Description

本発明は、音声検出装置、音声検出プログラムおよびパラメータ調整方法に関し、特に、入力信号の音声区間と非音声区間とを判別する音声検出装置、音声検出プログラム、および音声検出装置に適用されるパラメータ調整方法に関する。
音声検出技術は、種々の目的で広く用いられている。音声検出技術は、例えば、移動体通信等において非音声区間の圧縮率を向上させたり、あるいはその区間だけ伝送しないようにしたりして音声伝送効率を向上する目的で用いられる。また、例えば、ノイズキャンセラやエコーキャンセラ等において非音声区間で雑音を推定したり決定したりする目的や、音声認識システムにおける性能向上、処理量削減等の目的で広く用いられている。
音声区間を検出する装置が種々提案されている(例えば、特許文献1,2参照)。特許文献1に記載された音声区間検出装置は、音声フレームを切り出し、音量をスムージングして第1変動を算出し、第1変動の変動をスムージングして第2変動を算出する。そして、第2変動と閾値とを比較して、フレーム毎に音声か非音声であるのかを判定する。さらに、以下のような判定条件に従って、音声および非音声のフレーム継続長をもとにした音声区間を決定する。
条件(1):最低限必要な継続長を満たさなかった音声区間は音声区間として認めない。以下、この最低限必要な継続長を音声継続長閾値と記す。
条件(2):音声区間の間に挟まれていて、連続した音声区間として扱うべき継続長を満たした非音声区間は、両端の音声区間と合わせて1つの音声区間とする。以下、この「連続した音声区間として扱うべき継続長」は、この長さ以上であれば非音声区間とすることから、非音声継続長閾値と記す。
条件(3):変動の値が小さいために非音声として判定された音声区間始終端の一定数のフレームを音声区間に付け加える。以下、音声区間に付け加える一定数のフレームを始終端マージンと記す。
特許文献1に記載された音声区間検出装置において、フレーム毎に音声か非音声であるのかを判定する閾値および、上記の条件に関するパラメータ(音声継続長閾値、非音声継続長閾値等)は、予め定められた値である。
また、特許文献2に記載された発話区間検出装置は、音声の特徴量として、音声波形の振幅レベル、ゼロ交差数(一定時間内に信号レベルが0と交わる回数)、音声信号のスペクトル情報、GMM(Gaussian Mixture Model)対数尤度等を用いる。
特開2006−209069号公報 特開2007−17620号公報
特許文献1に記載された条件(1)や条件(2)等を用いて、音声および非音声のフレーム継続長をもとにした音声区間を決定する場合、条件(1)や条件(2)等において定められたパラメータが、必ずしも雑音条件(例えば雑音の種類)や入力信号の収録条件(例えばマイクロホン特性やA−Dボードの性能)に適した値であるとは限らない。音声区間検出装置を使用する際、条件(1)や条件(2)等において定められたパラメータが雑音条件や収録条件に適した値になっていないと、条件(1)、条件(2)等による区間決定の精度が低下する。
そこで、本発明は、入力信号のフレームに対して音声区間に該当するか非音声区間に該当するかを判定し、所定のルールでその判定結果を整形する場合に、整形後の判定結果の精度を向上させることができる音声検出装置、音声検出プログラムおよびパラメータ調整方法を提供することを目的とする。
本発明による音声検出装置は、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出手段と、整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出手段と、区間数算出手段が算出した音声区間数と正解音声区間数との差分または区間数算出手段が算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新手段とを備えることを特徴とする。
また、本発明によるパラメータ調整方法は、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形し、整形後の判定結果から、音声区間および非音声区間の数を算出し、整形後の判定結果から算出した音声区間数と正解音声区間数との差分、または整形後の判定結果から算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新することを特徴とする。
また、本発明による音声検出プログラムは、コンピュータに、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出処理、整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出処理、および、区間数算出処理で算出した音声区間数と正解音声区間数との差分または区間数算出処理で算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新処理を実行させることを特徴とする。
本発明によれば、入力信号のフレームに対して音声区間に該当するか非音声区間に該当するかを判定し、所定のルールでその判定結果を整形する場合に、整形後の判定結果の精度を向上させることができる。
本発明の第1の実施形態の音声検出装置の構成例を示すブロック図である。 サンプルデータにおける音声区間および非音声区間の例を示す模式図である。 第1の実施形態の音声検出装置の構成要素のうち学習処理に関する部分を示したブロック図である。 学習処理の処理経過の例を示すフローチャートである。 判定結果の整形の例を示す説明図である。 第1の実施形態の音声検出装置の構成要素のうち、入力された音声信号のフレームに対して音声区間であるか非音声区間であるかを判定する部分を示したブロック図である。 本発明の第2の実施形態の音声検出装置の構成例を示すブロック図である。 第2の実施形態での学習処理の処理経過の例を示すフローチャートである。 本発明の第3の実施形態の音声検出装置の構成例を示すブロック図である。 本発明の概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。なお、本発明の音声検出装置は、入力された音声信号における音声区間と非音声区間とを判別するので音声区間判別装置と称することもできる。
実施形態1.
図1は、本発明の第1の実施形態の音声検出装置の構成例を示すブロック図である。第1の実施形態の音声検出装置は、音声検出部100と、サンプルデータ格納部120と、正解音声・非音声区間数格納部130と、音声・非音声区間数算出部140と、区間整形ルール更新部150と、入力信号取得部160とを備える。
本発明の音声検出装置は、入力された音声信号からフレームを切り出し、フレーム毎に音声区間に該当するのか非音声区間に該当するのかを判定する。さらに、その判定結果を整形するためのルール(区間整形ルール)に従って判定結果を整形し、整形後の判定結果を出力する。また、音声検出装置は、予め用意され、時系列順に音声区間か非音声区間かが定められているサンプルデータに対してもフレーム毎に音声区間に該当するのか非音声区間に該当するのかを判定し、区間整形ルールに従ってその判定結果を整形し、整形後の判定結果を参照して、区間整形ルールに含まれるパラメータを定める。そして、入力された音声信号に対する判定処理では、そのパラメータに基づいて判定結果を整形する。
また、区間とは、サンプルデータまたは入力された音声信号において、音声が存在する状態または音声が存在しない状態のいずれかが継続する一つの期間に相当する部分である。すなわち、音声区間は、サンプルデータまたは入力された音声信号において、音声が存在する状態が継続する一つの期間に相当する部分であり、非音声区間は、サンプルデータまたは入力された音声信号において、音声が存在しない状態が継続する一つの期間に相当する部分である。音声区間と非音声区間は、交互に現れる。フレームが音声区間に該当すると判定されたということは、そのフレームが音声区間に含まれると判定されたということである。フレームが非音声区間に該当すると判定されたということは、そのフレームが非音声区間に含まれると判定されたということである。
音声検出部100は、サンプルデータや入力された音声信号における音声区間と非音声区間とを判別し、その結果を整形する。音声検出部100は、入力信号切り出し部101と、特徴量算出部102と、閾値記憶部103と、音声・非音声判定部104と、判定結果保持部105と、区間整形ルール記憶部106と、音声・非音声区間整形部107とを備える。
入力信号切り出し部101は、サンプルデータや入力された音声信号から、単位時間分のフレームの波形データを時間順に順次、切り出す。すなわち、入力信号切り出し部101は、サンプルデータや音声信号からフレームを抽出する。単位時間の長さは、予め設定しておけばよい。
特徴量算出部102は、入力信号切り出し部101によって切り出されたフレーム毎に、音声の特徴量を算出する。
閾値記憶部103は、フレームが音声区間と非音声区間のどちらに該当するのかを判定するための閾値(以下、判定用閾値と記す。)を記憶する。判定用閾値は、予め閾値記憶部105に記憶させておく。以下、判定用閾値をθで表す。
音声・非音声判定部104は、特徴量算出部102によって計算された特徴量と、判定用閾値θとを比較して、フレームが音声区間と非音声区間のどちらに該当するのかを判定する。すなわち、フレームが音声区間に含まれるフレームであるのか、非音声区間に含まれるフレームであるのかを判定する。
判定結果保持部105は、フレーム毎に判定された判定結果を複数フレームに渡り保持する。
区間整形ルール記憶部106は、音声区間に該当するか非音声区間に該当するかの判定結果を整形するためのルールである区間整形ルールを記憶する。区間整形ルール記憶部106が記憶する区間整形ルールとして、以下に示すルールを記憶する。
第1の区間整形ルールは、「音声継続長閾値より短い音声区間を除去し、前後の非音声区間と合わせて一つの非音声区間とする。」というルールである。換言すれば、音声区間に該当すると判定されたフレームの連続数が音声継続長閾値未満である場合、そのフレームの判定結果を非音声区間に変更するというルールである。
第2の区間整形ルールは、「非音声継続長閾値より短い非音声区間を除去し、前後の音声区間と合わせて一つの音声区間とする。」というルールである。換言すれば、非音声区間に該当すると判定されたフレームの連続数が非音声継続長閾値未満である場合、そのフレームの判定結果を音声区間に変更するというルールである。
区間整形ルール記憶部106は、上記以外のルールを記憶していてもよい。
区間整形ルール記憶部106に記憶される区間整形ルールに含まれるパラメータは、初期状態の値(初期値)から区間整形ルール更新部150によって更新されていく。
音声・非音声区間整形部107は、区間整形ルール記憶部106に記憶されている区間整形ルールに従って、複数のフレームに渡る判定結果を整形する。
サンプルデータ格納部120は、区間整形ルールに含まれるパラメータを学習するための音声データであるサンプルデータを記憶する。ここで、学習するとは、区間整形ルールに含まれるパラメータを定めることである。サンプルデータは、区間整形ルールに含まれるパラメータを学習するための学習データであるということができる。また、区間整形ルールに含まれるパラメータとは、具体的には、音声継続長閾値と非音声継続長閾値である。
正解音声・非音声区間数格納部130は、サンプルデータに予め定められた音声区間の数と非音声区間の数とを記憶する。以下、サンプルデータに予め定められた音声区間の数を正解音声区間数と記す。また、サンプルデータに予め定められた非音声区間の数を正解非音声区間数と記す。例えば、図2に例示するサンプルデータのように音声区間および非音声区間が定められている場合、正解音声・非音声区間数格納部130には、正解音声区間数として“2”が記憶され、正解非音声区間数として“3”が記憶される。
音声・非音声区間数算出部140は、サンプルデータに対して判定を行ったときの判定結果に対して音声・非音声区間整形部107が整形を行った後、その整形後の判定結果から、音声区間数および非音声区間数を求める。
区間整形ルール更新部150は、音声・非音声区間数算出部140によって求められた音声区間数および非音声区間数と、正解音声・非音声区間数格納部130に記憶されている正解音声区間数および正解非音声区間数とに基づいて、区間整形ルールのパラメータ(音声継続長閾値と非音声継続長閾値)を更新する。区間整形ルール更新部150は、区間整形ルール記憶部106に記憶された区間整形ルールにおけるパラメータの値を規定する箇所を更新すればよい。
入力信号取得部160は、入力された音声のアナログ信号をデジタル信号に変換し、そのデジタル信号を音声信号として音声検出部100の入力信号切り出し部101に入力する。入力信号取得部160は、例えば、マイクロホン161を介して音声信号(アナログ信号)を取得してもよい。あるいは、他の方法で音声信号を取得してもよい。
入力信号切り出し部101、特徴量算出部102、音声・非音声判定部104、音声・非音声区間整形部107、音声・非音声区間数算出部140および区間整形ルール更新部150は、それぞれ個別のハードウェアであってもよい。あるいは、プログラム(音声検出プログラム)に従って動作するCPUによって実現されていてもよい。すなわち、音声検出装置が備えるプログラム記憶手段(図示せず)が予めプログラムを記憶し、CPUがそのプログラムを読み込み、プログラムに従って、入力信号切り出し部101、特徴量算出部102、音声・非音声判定部104、音声・非音声区間整形部107、音声・非音声区間数算出部140および区間整形ルール更新部150として動作してもよい。
閾値記憶部103、判定結果保持部105、区間整形ルール記憶部106、サンプルデータ格納部120、正解音声・非音声区間数格納部130は、例えば、記憶装置によって実現される。記憶装置の種類は特に限定されない。また、入力信号取得部160は、例えば、A−D変換器、あるいはプログラムに従って動作するCPUによって実現される。
次に、サンプルデータについて説明する。サンプルデータ格納部120に格納しておくサンプルデータの例として、16bit Linear−PCM(Pulse Code Modulation )等の音声データが挙げられるが、他の音声データであってもよい。サンプルデータは、音声検出装置の使用が想定される雑音環境で収録された音声データが好ましいが、そのような雑音環境が定められない場合には、複数の雑音環境で収録された音声データをサンプルデータとして用いてもよい。また、雑音の含まれていないクリーンな音声と雑音とを分けて収録し、その音声と雑音とを重畳したデータを計算機によって作成し、そのデータをサンプルデータとしてもよい。
正解音声区間数および正解非音声区間数は、予めサンプルデータに対して定めておき、正解音声・非音声区間数格納部130に記憶させておく。人間が、サンプルデータに基づく音を聞いてサンプルデータにおける音声区間、非音声区間を判断し、音声区間の数および非音声区間の数を計数して、正解音声区間数および正解非音声区間数を定めてもよい。あるいは、サンプルデータに対して音声認識処理を行って、音声区間であるか非音声区間であるかのラベリングを行い、音声区間および非音声区間の数を計数してもよい。また、サンプルデータがクリーンな音声と雑音とが重畳された音声であるならば、クリーンな音声に対して別の音声検出(一般的な音声検出技術)を行って、音声区間であるか非音声区間であるかのラベリングを行ってもよい。
次に、動作について説明する。
図3は、第1の実施形態の音声検出装置の構成要素のうち、区間整形ルールに含まれるパラメータ(音声継続長閾値、非音声継続長閾値)を学習する学習処理に関する部分を示したブロック図である。また、図4は、この学習処理の処理経過の例を示すフローチャートである。以下、図3および図4を参照して、学習処理の動作を説明する。
まず、入力信号切り出し部101は、サンプルデータ格納部120に記憶されているサンプルデータを読み出し、サンプルデータから単位時間分のフレームの波形データを、時系列順に切り出す(ステップS101)。このとき、入力信号切り出し部101は、例えば、サンプルデータからの切り出し対象となる部分を、所定時間ずつずらしながら、単位時間分のフレームの波形データを順次、切り出せばよい。この単位時間をフレーム幅と呼び、この所定時間をフレームシフトと呼ぶ。例えば、サンプルデータ格納部120に記憶されたサンプルデータが、サンプリング周波数8000Hzの16bit Linear−PCMの音声データである場合、サンプルデータは、1秒当たり8000点分の波形データを含む。入力信号切り出し部101は、このサンプルデータから、例えば、フレーム幅200点(25ミリ秒)の波形データを、フレームシフト80点(10ミリ秒)で時系列順に順次、切り出してもよい。すなわち、25ミリ秒分のフレームの波形データを10ミリ秒分ずつずらしながら切り出してもよい。ただし、上記のサンプルデータの種類や、フレーム幅およびフレームシフトの値は例示であり、上記の例に限定されない。
次に、特徴算出部102は、入力信号切り出し部101によってフレーム幅ずつ切り出された各波形データの特徴量を算出する(ステップS102)。ステップS102で算出する算出特徴量の例として、例えば、スペクトルパワー(音量)の変動を平滑化し、さらにその平滑化結果の変動を平滑化したデータ(特許文献1における第2変動に相当)や、特許文献2に記載されている音声信号の振幅レベル、音声信号のスペクトル情報、ゼロ交差数(零点交差数)、GMM対数尤度等を用いることができる。また、複数種類の特徴量を混合して得られる特徴長を算出してもよい。なお、これらの特徴量は例示であり、ステップS102ではこれら以外の特徴量を算出してもよい。
次に、音声・非音声判定部104は、閾値記憶部103に記憶されている判定用閾値θと、ステップS102で算出された特徴量とを比較し、フレーム毎に音声区間に該当するか非音声区間に該当するのかを判定する(ステップS103)。例えば、音声・非音声判定部104は、算出された特徴量が判定用閾値θよりも大きければフレームは音声区間に該当すると判定し、特徴量が判定用閾値θ以下であればフレームは非音声区間に該当すると判定する。ただし、特徴量によっては音声区間で値が小さく、非音声区間で値が大きいこともあり得る。この場合、特徴量が判定用閾値θよりも小さければフレームは音声区間に該当すると判定し、特徴量が判定用閾値θ以上であればフレームは非音声区間に該当すると判定すればよい。判定用閾値θの値は、ステップS102で算出する特徴量の種類に応じて定めておけばよい。
音声・非音声判定部104は、フレームが音声区間に該当するか非音声区間に該当するかの判定結果を複数フレームに渡って判定結果保持部105に保持させる(ステップS104)。判定結果を判定結果保持部105に保持させる(すなわち記憶させる)態様は、フレーム毎に音声区間または非音声区間のラベルを付けて記憶させる態様であってもよい。あるいは、区間として保持させてもよい。例えば、音声区間と判定された連続するフレームに関して、同じ音声区間に属する旨の情報を記憶させ、非音声区間と判定された連続するフレームに関して、同じ非音声区間に属する旨の情報を記憶させてもよい。また、音声区間に該当するか非音声区間に該当するかの判定結果をどのくらいの長さに渡って判定結果保持部105に保持させるかは、変更可能とすることが好ましい。一発声全体のフレームの判定結果を判定結果保持部105に保持させると設定してもよく、また、数秒分のフレームの判定結果を判定結果保持部105に保持させると設定してもよい。
次に、音声・非音声区間整形部107は、判定結果保持部105に保持されている判定結果を、区間整形ルールに従って整形する(ステップS105)。
例えば、前述の第1の区間整形ルールに従って、音声・非音声区間整形部107は、音声区間に該当すると判定されたフレームの連続数が音声継続長閾値未満である場合、そのフレームの判定結果を非音声区間に変更する。すなわち、そのフレームが非音声区間に該当する旨に変更する。この結果、フレーム連続数が音声継続長閾値より短い音声区間が除去され、その音声区間は前後の非音声区間と合わさって一つの非音声区間になる。
また、例えば、前述の第2の区間整形ルールに従って、音声・非音声区間整形部107は、非音声区間に該当すると判定されたフレームの連続数が非音声継続長閾値未満である場合、そのフレームの判定結果を音声区間に変更する。すなわち、そのフレームが音声区間に該当する旨に変更する。この結果、フレーム連続数が非音声継続長閾値より短い非音声区間が除去され、その非音声区間は前後の音声区間と合わさって一つの音声区間になる。
図5は、判定結果の整形の例を示す説明図である。図5において、Sは、音声区間に該当すると判定されたフレームであり、Nは、非音声区間に該当すると判定されたフレームである。また、図5の上段は整形前の判定結果を表し、下段は整形後の判定結果を表す。音声継続長閾値が2よりも大きいとする。すると、音声区間と判定されたフレームの連続数が2である場合、その連続数“2”は、音声継続長閾値未満である。よって、音声・非音声区間整形部107は、第1の区間整形ルールに従って、その2つのフレームに関し、判定結果を非音声区間に整形する。この結果、図5の下段に示すように、整形前に音声区間であった部分は、その前後の非音声区間と合わさって一つの非音声区間とされる。図5では、第1の区間整形ルールに従って整形する場合を示したが、第2の区間整形ルールに従う場合も同様である。
ステップS105では、その時点で区間整形ルール記憶部106に記憶されている区間整形ルールに従う。例えば、最初にステップS105に移行したときには、音声継続長閾値や非音声継続長閾値の初期値を用いて整形する。
ステップS105の後、音声・非音声区間数算出部140は、整形された結果を参照して、音声区間数および非音声区間数を算出する(ステップS106)。音声・非音声区間数算出部140は、連続して音声区間と判定されている1つ以上のフレームからなる集合を一つの音声区間として、そのようなフレームの集合の数を計数することによって音声区間数を求める。例えば、図5の下段に示す例では、連続して音声区間と判定されている1つ以上のフレームからなる集合は一つ存在するので、音声区間数を1とする。同様に、音声・非音声区間数算出部140は、連続して非音声区間と判定されている1つ以上のフレームからなる集合を一つの非音声区間として、そのようなフレームの集合の数を計数することによって非音声区間数を求める。例えば、図5の下段に示す例では、連続して非音声区間と判定されている1つ以上のフレームからなる集合は二つ存在するので、非音声区間を2とする。
次に、区間整形ルール更新部150は、ステップS105で求めた音声区間数および非音声区間数と、正解音声・非音声区間数格納部130に記憶されている正解音声区間数および正解非音声区間数とに基づいて、音声継続長閾値と非音声継続長閾値を更新する(ステップS107)。
音声継続長閾値をθ音声と表すこととすると、区間整形ルール更新部150は、以下に示す式(1)のように、音声継続長閾値θ音声を更新する。
θ音声 ← θ音声―ε×(正解音声区間数―音声区間数) 式(1)
式(1)における左辺のθ音声は更新後の音声継続長閾値であり、右辺のθ音声は更新前の音声継続長閾値である。すなわち、区間整形ルール更新部150は、更新前の音声継続長閾値θ音声を用いて、θ音声―ε×(正解音声区間数―音声区間数)を計算し、その計算結果を更新後の音声継続長閾値とすればよい。式(1)においてεは、更新のステップサイズを表す。すなわち、εはステップS107の処理を一回行うときにおけるθ音声の更新の大きさを規定する値である。
また、非音声継続長閾値をθ非音声と表すこととすると、区間整形ルール更新部150は、以下に示す式(2)のように、非音声継続長閾値θ非音声を更新する。
θ非音声 ← θ非音声―ε’×(正解非音声区間数―非音声区間数)
式(2)
式(2)における左辺のθ非音声は更新後の非音声継続長閾値であり、右辺のθ非音声は更新前の非音声継続長閾値である。すなわち、区間整形ルール更新部150は、更新前の非音声継続長閾値θ非音声を用いて、θ非音声―ε’×(正解非音声区間数―非音声区間数)を計算し、その計算結果を更新後の非音声継続長閾値とすればよい。式(2)においてε’は、更新のステップサイズであり、ステップS107の処理を一回行うときにおけるθ非音声の更新の大きさを規定する値である。
ステップサイズε,ε’の値としては一定の値を用いてもよい。あるいは、最初にεおよびε’の値を大きな値として設定しておき、徐々にε,ε’の値を小さくしてもよい。
次に、区間整形ルール更新部150は、音声継続長閾値および非音声継続長閾値の更新の終了条件が満たされているか否かを判定する(ステップS108)。更新の終了条件が満たされていれば(ステップS108におけるYes)、学習処理を終了する。また、更新の終了条件が満たされていなければ(ステップS108におけるNo)、ステップS101以降の処理を繰り返す。このとき、ステップS105を実行する際には、直前のステップS107で更新された音声継続長閾値および非音声継続長閾値に基づいて、判定結果に対する整形を行う。更新の終了条件として、音声継続長閾値および非音声継続長閾値の更新前後の変化量が予め設定した値より小さいという条件を用いてもよい。すなわち、更新前後での音声継続長閾値の変化量(差分)や、非音声継続長閾値の変化量(差分)が、予め定めた値という条件が満たされているか否かを判定してもよい。あるいは、全てのサンプルデータを規定の回数用いて学習したという条件(換言すれば、ステップS101からステップS108までの処理を規定回数行ったという条件)を用いてもよい。
式(1)および式(2)によるパラメータの更新は、最急降下法の考え方に基づいている。正解音声区間数と音声区間数との差分、および正解非音声区間数と非音声区間数との差分が小さくなる方法であれば、式(1)および式(2)に示す方法以外の方法で、パラメータを更新してもよい。
図6は、第1の実施形態の音声検出装置の構成要素のうち、入力された音声信号のフレームに対して音声区間であるか非音声区間であるかを判定する部分を示したブロック図である。以下、図4を参照して、音声継続長閾値および非音声継続長閾値の学習後における判定処理を説明する。
まず、入力信号取得部160は、音声区間と非音声区間の判別対象となる音声のアナログ信号を取得し、デジタル信号に変換し、音声検出部100に入力する。なお、アナログ信号の取得は、例えばマイクロホン161等を用いて行えばよい。音声検出部100は、音声信号が入力されると、その音声信号を対象としてステップS101〜ステップS105(図4参照)と同様の処理を行い、整形後の判定結果を出力する。
すなわち、入力信号切り出し部101が、入力された音声データから各フレームの波形データを切り出し、各特徴量算出部102が各フレームの特徴量を算出する(ステップS102)。次に、音声・非音声判定部106が、その特徴量と判定用閾値とを比較し、フレーム毎に音声区間に該当するのか非音声区間に該当するのかを判定し(ステップS103)、その判定結果を判定結果保持部105に保持させる(ステップS104)。音声・非音声区間整形部107は、区間整形ルール記憶部106に記憶された区間整形ルールに従って、その判定結果を整形し(ステップS105)、整形後の判定結果を出力データとする。区間整形ルールに含まれるパラメータ(音声継続長閾値および非音声継続長閾値)は、サンプルデータを用いた学習で定められた値であり、そのパラメータを用いて、判定結果を整形する。
次に、本実施形態の効果を説明する。
音声・非音声判定部104の判定結果に対して、前述の区間整形ルールを用いて整形を行ったときに、個別具体的な整形結果が得られる確率を式で表すと、以下に示す式(3)および式(4)のように表すことができる。
Figure 2010070840
Figure 2010070840
式(3)および式(4)において、cは区間を表し、Lは区間cにおけるフレーム数を表す。音声区間と非音声区間は交互に現れるので、最初の区間が必ず非音声区間になるとすると、以降、非音声区間は必ず奇数(odd )番目となり、音声区間は必ず偶数(even)番目となる。また、{L}は、入力信号をどのように音声区間と非音声区間とに分割するのかという系列を意味し、具体的には、{L}は、音声区間や非音声区間におけるフレーム数の並びで表される。例えば、{L}={3,5,2,10,8}であったとすると、非音声区間が3フレーム続いた後、音声区間が5フレーム続き、非音声区間が2フレーム続き、音声区間が10フレーム続き、非音声区間が8フレーム続くことを意味する。
そして、式(3)の左辺のP({L};θ音声,θ非音声)は、音声継続長閾値がθ音声であり、非音声継続長閾値がθ非音声である場合に{L}という整形結果が得られる確率である。すなわち、音声・非音声判定部104の判定結果に対して区間整形ルールを用いて整形した結果が{L}となる確率である。c∈evenは、偶数番目の区間(すなわち、音声区間)を意味し、c∈oddは、奇数番目の区間(すなわち、非音声区間)を意味する。
γおよびγ’は、音声検出性能の信頼度であり、γは音声区間に関する信頼度であり、γ’は非音声区間に関する信頼度である。音声検出結果が必ず正しければこの信頼度の値は無限大であり、結果が全く信頼できなければ信頼度の値は0である。
また、Mは、音声・非音声判定部104による音声区間と非音声区間のどちらに該当するかについての判定で用いられたフレーム毎の特徴量および判定用閾値θから、式(5)に示すように計算される値である。
Figure 2010070840
tはフレームを表し、t∈cは着目する区間cの中にあるフレームを表している。rは、区間整形ルールとフレーム毎の判定のどちらを重んじるかを表すパラメータである。rは、0以上の正の値であり、1より大きければフレーム毎の判定の方を重んじることとなり、1より小さければ区間整形ルールの方を重んじることとなる。また、Fはフレームtにおける特徴量を表す。θは判定用閾値である。
式(3)を尤度関数とみなし、対数尤度を求めると、以下に示す式(6)のようになる。
Figure 2010070840
式(6)を最大化するθ音声およびθ非音声は、以下に示す式(7)および式(8)のように求まる。
Figure 2010070840
Figure 2010070840
ここで、Nevenは音声区間の数であり、Noddは非音声区間の数である。ここでは、正解の音声区間・非音声区間(すなわち、予め定められた音声区間・非音声区間)に対する対数尤度を最大化したいので、Nevenは正解音声区間数に置き換えられ、Noddは正解非音声区間数に置き換えられる。また、E[Neven]は音声区間の数の期待値であり、E[Nodd]は非音声区間の数の期待値である。E[Neven]は、音声・非音声区間数算出部140で求められた音声区間数で置き換えられ、E[Nodd]は、音声・非音声区間数算出部140で求められた非音声区間数で置き換えられるとする。式(1)および式(2)は、式(7)および式(8)を逐次的に求める式となっており、式(1)、式(2)による更新は、正解の音声区間・非音声区間の対数尤度を増加させる更新となっている。
このように、式(1)および式(2)を用いて区間整形ルールにおけるパラメータ(音声継続長閾値、非音声継続長閾値)を更新することで、パラメータを適切な値に定めることができる。その結果、音声・非音声判定部104による判定結果を区間整形ルールに従い整形して得られる判定結果の精度を向上させることができる。
式(1)および式(2)が式(7)および式(8)を逐次的に求める式となっていることを、式(7)を例にして説明する。式(7)は、以下に示す式(9)に変形することができる。
Figure 2010070840
最急降下法において、Lを極大化する(−Lを極小化する)θは、以下に示す式(10)を逐次的に計算することで求めることができる。
Figure 2010070840
式(10)におけるεはステップサイズであり、更新の大きさを決定する値である。式(10)に式(8)を代入すると、式(11)のようになる。
θ ← θ−εγθ音声(正解音声区間数−音声区間数) 式(11)
ここで、ステップサイズεを定義し直すことにより、式(12)のようになる。
θ ← θ−ε(正解音声区間数−音声区間数) 式(12)
ここでは、式(7)に関して説明したが、式(8)についても同様である。
実施形態2.
図7は、本発明の第2の実施形態の音声検出装置の構成例を示すブロック図である。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、説明を省略する。第2の実施形態の音声検出装置は、第1の実施形態の構成に加えて、正解ラベル格納部210と、エラー率算出部220と、閾値更新部230とを備える。本実施形態では、区間整形ルールのパラメータ学習時に、判定用閾値θに対する学習も行う。
正解ラベル格納部210は、サンプルデータに対して予め定められた、音声区間に該当するか非音声区間に該当するかに関する正解ラベルを記憶する。正解ラベルは、サンプルデータと時系列順に関連付けられる。フレームに対する判定結果が、そのフレームに応じた正解ラベルと一致していればその判定結果は正しく、一致していなければその判定結果は誤りとなる。
エラー算出部220は、音声・非音声区間整形部107による整形後の判定結果と、正解ラベル格納部210に記憶された正解ラベルとを用いて、エラー率を計算する。エラー率算出部220は、音声区間を誤って非音声区間としてしまう割合(FRR:False Rejection Ratio)、および非音声区間を誤って音声区間としてしまう割合(FAR:False Acceptance Ratio)を、それぞれエラー率として算出する。FRRは、より具体的には、音声区間に該当すると判定すべきフレームを、誤って、非音声区間に該当すると判定してしまう割合である。同様に、FARは、非音声区間に該当すると判定すべきフレームを、誤って、音声区間に該当すると判定してしまう割合である。
閾値更新部230は、閾値記憶部103に記憶された判定用閾値θをエラー率に基づいて更新する。
エラー率算出部220および閾値更新部230は、例えば、プログラムに従って動作するCPUによって実現される。あるいは、他の構成要素とは別のハードウェアとして実現される。正解ラベル格納部210は、例えば記憶装置によって実現される。
次に、第2の実施形態の動作について説明する。
図8は、第2の実施形態での区間整形ルールのパラメータ学習時の処理経過の例を示すフローチャートである。第1の実施形態と同様の処理は、図4と同一の符号を付して説明を省略する。サンプルデータからフレーム毎に波形データを切り出してから、区間整形ルール更新部150がパラメータ(音声継続長閾値および非音声継続長閾値)を更新するまでの処理(ステップS101〜S107)は、第1の実施形態と同様である。
ステップS107の後、エラー率算出部220は、エラー率(FRR,FAR)を算出する。エラー率算出部220は、音声区間を誤って非音声区間としてしまう割合であるFRRを、以下に示す式(13)の計算により算出する(ステップS201)。
FRR≡音声を誤って非音声としたフレーム数÷正解音声フレーム数
式(13)
「音声を誤って非音声としたフレーム数」は、音声・非音声区間整形部107による整形後の判定結果において、正解ラベルが音声区間であるが、非音声区間に該当すると判定されているフレームの数である。正解音声フレーム数は、整形後の判定結果において、正解ラベルが音声区間であって、音声区間に該当すると正しくと判定されているフレームの数である。
また、エラー率算出部220は、非音声区間を誤って音声区間としてしまう割合であるFARを、以下に示す式(14)の計算により算出する。
FAR≡非音声を誤って音声としたフレーム数÷正解非音声フレーム数
式(14)
「非音声を誤って音声としたフレーム数」は、音声・非音声区間整形部107による整形後の判定結果において、正解ラベルが非音声区間であるが、音声区間に該当すると判定されているフレームの数である。正解非音声フレーム数は、整形後の判定結果において、正解ラベルが非音声区間であって、非音声区間に該当すると正しく判定されているフレームの数である。
次の、ステップS202において、閾値更新部230は、閾値記憶手段103に記憶された判定用閾値θを、エラー率FFR,FARを用いて更新する(ステップS202)。閾値更新部230は、以下に示す式(15)のように判定用閾値θを更新すればよい。
θ ← θ − ε’’×(α×FRR―(1−α)×FAR)
式(15)
式(15)における左辺のθは更新後の判定用閾値であり、右辺のθは更新前の判定用閾値である。すなわち、閾値更新部230は、更新前の判定用閾値θを用いて、θ−ε’’×(α×FRR―(1−α)×FAR)を計算し、その計算結果を更新後の判定用閾値とすればよい。式(15)においてε’’は更新のステップサイズであり、θの更新の大きさを規定する値である。ε’’は、εあるいはε’(式(1)、式(2)参照)と同様の値であってもよい。あるいは、ε,ε’と異なる値であってもよい。
ステップS202の後、更新の終了条件が満たされたか否かを判定し(ステップS108)、満たされていなければステップS101以降の処理を繰り返す。このとき、ステップS103では更新後のθを用いて判定を行う。
ステップS101〜S108のループ処理において、ループ処理毎に毎回、区間整形ルールのパラメータの更新および判定用閾値の更新を行ってもよい。あるいは、ループ処理毎に、区間整形ルールのパラメータの更新と、判定用閾値の更新とを交互に行ってもよい。あるいは、区間整形ルールのパラメータと判定用閾値のいずれか一方に関してループ処理を繰り返し、更新の終了条件が満たされた後に、他方に関してもループ処理を行ってもよい。
式(15)に示す更新処理を複数回行うことにより、2つのエラー率の比は以下の式(16)に示す比に近づく。よって、αは、エラー率FAR,FRRの比を定める値である。
FAR:FRR=α:1−α 式(16)
学習された区間整形ルールのパラメータを用いて入力信号に対する音声検出を行う動作は、第1の実施形態と同様である。本実施形態では、判定用閾値θも学習されているので、学習されたθと特徴量とを比較して、音声区間に該当するのか非音声区間に該当するのかを判定する。
次に、本実施形態の効果について説明する。
第1の実施形態では判定用閾値θを固定値としたが、第2の実施形態では、予め設定したエラー率の比になるという条件の下でエラー率が減少するように、区間整形ルールのパラメータおよび判定用閾値を更新する。予めαの値を設定しておけば、期待するFRRとFARの2つのエラー率の比を満たす音声検出になるように、閾値が適切に更新される。音声検出はさまざまな用途に利用されるが、その利用用途に応じて適切なエラー率の比が異なることが予想される。本実施形態によれば、利用用途に応じた適切なエラー率の比を設定できる。
実施形態3.
第1および第2の実施形態では、サンプルデータ格納部120に記憶されたサンプルデータを直接、入力信号切り出し部101の入力とする場合を説明した。第3の実施形態では、サンプルデータを音として出力し、その音を入力してデジタル信号として入力信号切り出し部101の入力とする。図9は、本発明の第3の実施形態の音声検出装置の構成例を示すブロック図である。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、説明を省略する。第3の実施形態の音声検出装置は、第1の実施形態の構成に加えて、音声信号出力部360およびスピーカ361を備える。
音声信号出力部360は、サンプルデータ格納部120に記憶されたサンプルデータを音としてスピーカ361に出力させる。音声信号出力部360は、例えば、プログラムに従って動作するCPUによって実現される。
本実施形態では、区間整形ルールのパラメータ学習時におけるステップS101で、音声信号出力部360がサンプルデータを音としてスピーカ361に出力させる。このとき、マイクロホン161は、スピーカ361から出力された音を入力可能な位置に配置される。マイクロホン161はその音が入力されると、その音をアナログ信号に変換し、入力信号取得部160に入力する。入力信号取得部160は、そのアナログ信号をデジタル信号に変換し、入力信号切り出し部101に入力する。入力信号切り出し部101は、そのデジタル信号からフレームの波形データを切り出す。その他の動作は第1の実施形態と同様である。
本実施形態によれば、サンプルデータの音の入力時に音声検出装置の周囲の環境の雑音も入力され、環境雑音も含む状態で区間整形ルールのパラメータを定める。従って、実際に音声が入力される場面の雑音環境に適切な区間整形ルールを設定することができる。
第3の実施形態において、第2の実施形態と同様に、正解ラベル格納部210と、エラー率検出部220と、閾値更新部230とを備え、判定用閾値θの値を設定する構成としてもよい。
第1から第3までの各実施形態における出力結果(入力された音声に対する音声検出部100の出力)は、例えば、音声認識装置や、音声伝送向けの装置で利用される。
次に、本発明の概要について説明する。図10は、本発明の概要を示すブロック図である。本発明の音声検出装置は、判定結果導出手段74(例えば、音声検出部100)と、区間数算出手段75(例えば、音声・非音声区間算出部140)と、継続長閾値更新手段76(例えば、区間整形ルール更新部150)とを備える。
判定結果導出手段74は、音声区間数および非音声区間数が既知の音声データの時系列(例えば、サンプルデータ)に対し、単位時間毎(例えば、フレーム毎)に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値(例えば、音声継続長閾値、非音声継続長閾値)とを比較して音声区間および非音声区間を整形する。
区間数算出手段75は、整形後の判定結果から、音声区間および非音声区間の数を算出する。継続長閾値更新手段76は、区間数算出手段75が算出した音声区間数と正解音声区間数との差分または区間数算出手段75が算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する。
そのような構成により、整形後の判定結果の精度を向上させることができる。
また、上記の実施形態には、判定結果導出手段74が、音声データの時系列からフレームを切り出すフレーム切り出し手段(例えば、入力信号切り出し部101)と、切り出されたフレームの特徴量を算出する特徴量算出手段(例えば、特徴量算出部102)と、特徴量との比較対象となる判定用閾値と、特徴量算出手段に算出された特徴量とを比較して、フレームが音声区間に該当するか非音声区間に該当するかを判定する判定手段(例えば、音声・非音声判定部104)と、同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続しているフレームに対する判定結果を変更することにより、判定手段の判定結果を整形する判定結果整形手段(例えば、音声・非音声区間整形部107)とを備える構成が開示されている。
また、上記の実施形態には、判定結果整形手段74が、音声区間に該当すると判定されたフレームの連続数が第1の継続長閾値(例えば、音声継続長閾値)より小さい場合に、音声区間に該当すると判定された連続しているフレームに対する判定結果を非音声区間に変更し、非音声区間に該当すると判定されたフレームの連続数が第2の継続長閾値(例えば、非音声継続長閾値)より小さい場合に、非音声区間に該当すると判定された連続しているフレームに対する判定結果を音声区間に変更し、継続長閾値更新手段76が、区間数算出手段75が算出した音声区間数と正解音声区間数との差分が小さくなるように第1の継続長閾値を更新し(例えば、式(1)のように更新し)、区間数算出手段75が算出した非音声区間数と正解非音声区間数との差分が小さくなるように第2の継続長閾値を更新する(例えば、式(2)のように更新する)構成が開示されている。
また、上記の実施形態には、区間数算出手段75が、連続して同じ判定結果となっている1つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出する構成が開示されている。
また、上記の実施形態には、音声区間を誤って非音声区間と判定する第1のエラー率(例えば、FRR)と、非音声区間を誤って音声区間とする第2のエラー率(例えば、FAR)とを算出するエラー率算出手段(例えば、エラー率算出部220)と、第1のエラー率と第2のエラー率との比が所定の値に近づくように判定用閾値を更新する判定用閾値更新手段(例えば、閾値更新部230)とを備える構成が開示されている。
また、上記の実施形態には、音声区間数および非音声区間数が既知の音声データを音として出力させる音声信号出力手段(例えば、音声信号出力部360)と、その音を音声信号に変換してフレーム切り出し手段に入力する音声信号入力手段(例えば、マイクロホン161および入力信号取得部160)とを備える構成が開示されている。実際に音声が入力される場面の雑音環境に適切な継続長閾値を定めることができる。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年12月17日に出願された日本特許出願2008−321551を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、音声信号のフレームに対して音声区間に該当するか非音声区間に該当するかを判定する音声検出装置に好適に適用される。
100 音声検出部
101 入力信号切り出し部
102 特徴量算出部
103 閾値記憶部
104 音声・非音声判定部
105 判定結果保持部
106 区間整形ルール記憶部
107 音声・非音声区間整形部
120 サンプルデータ格納部
130 正解音声・非音声区間数格納部
140 音声・非音声区間数算出部
150 区間整形ルール更新部
160 入力信号取得部
210 正解ラベル格納部
220 エラー率算出部
230 閾値更新部

Claims (18)

  1. 音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、前記判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出手段と、
    前記整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出手段と、
    区間数算出手段が算出した音声区間数と正解音声区間数との差分または区間数算出手段が算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新手段とを備える
    ことを特徴とする音声検出装置。
  2. 判定結果導出手段は、
    音声データの時系列からフレームを切り出すフレーム切り出し手段と、
    切り出されたフレームの特徴量を算出する特徴量算出手段と、
    前記特徴量との比較対象となる判定用閾値と、特徴量算出手段に算出された特徴量とを比較して、前記フレームが音声区間に該当するか非音声区間に該当するかを判定する判定手段と、
    同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続している前記フレームに対する判定結果を変更することにより、判定手段の判定結果を整形する判定結果整形手段とを備える
    請求項1に記載の音声検出装置。
  3. 判定結果整形手段は、
    音声区間に該当すると判定されたフレームの連続数が第1の継続長閾値より小さい場合に、音声区間に該当すると判定された連続している前記フレームに対する判定結果を非音声区間に変更し、非音声区間に該当すると判定されたフレームの連続数が第2の継続長閾値より小さい場合に、非音声区間に該当すると判定された連続している前記フレームに対する判定結果を音声区間に変更し、
    継続長閾値更新手段は、
    区間数算出手段が算出した音声区間数と正解音声区間数との差分が小さくなるように第1の継続長閾値を更新し、区間数算出手段が算出した非音声区間数と正解非音声区間数との差分が小さくなるように第2の継続長閾値を更新する
    請求項2に記載の音声検出装置。
  4. 区間数算出手段は、連続して同じ判定結果となっている1つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出する
    請求項2または請求項3に記載の音声検出装置。
  5. 音声区間を誤って非音声区間と判定する第1のエラー率と、非音声区間を誤って音声区間とする第2のエラー率とを算出するエラー率算出手段と、
    第1のエラー率と第2のエラー率との比が所定の値に近づくように判定用閾値を更新する判定用閾値更新手段とを備える
    請求項1から請求項4のうちのいずれか1項に記載の音声検出装置。
  6. 音声区間数および非音声区間数が既知の音声データを音として出力させる音声信号出力手段と、
    前記音を音声信号に変換して判定結果導出手段に入力する音声信号入力手段とを備える
    請求項1から請求項5のうちのいずれか1項に記載の音声検出装置。
  7. 音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、前記判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形し、
    前記整形後の判定結果から、音声区間および非音声区間の数を算出し、
    前記整形後の判定結果から算出した音声区間数と正解音声区間数との差分、または前記整形後の判定結果から算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する
    ことを特徴とするパラメータ調整方法。
  8. 音声データの時系列からフレームを切り出し、
    切り出されたフレームの特徴量を算出し、
    前記特徴量との比較対象となる判定用閾値と、算出した特徴量とを比較して、前記フレームが音声区間に該当するか非音声区間に該当するかを判定し、
    同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続している前記フレームに対する判定結果を変更することにより、判定結果を整形する
    請求項7に記載のパラメータ調整方法。
  9. 判定結果を整形するときに、
    音声区間に該当すると判定されたフレームの連続数が第1の継続長閾値より小さい場合に、音声区間に該当すると判定された連続している前記フレームに対する判定結果を非音声区間に変更し、非音声区間に該当すると判定されたフレームの連続数が第2の継続長閾値より小さい場合に、非音声区間に該当すると判定された連続している前記フレームに対する判定結果を音声区間に変更し、
    継続長閾値を更新するときに、
    算出した音声区間数と正解音声区間数との差分が小さくなるように第1の継続長閾値を更新し、算出した非音声区間数と正解非音声区間数との差分が小さくなるように第2の継続長閾値を更新する
    請求項8に記載のパラメータ調整方法。
  10. 音声区間数および非音声区間数を算出するときに、
    連続して同じ判定結果となっている1つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出する
    請求項8または請求項9に記載のパラメータ調整方法。
  11. 音声区間を誤って非音声区間と判定する第1のエラー率と、非音声区間を誤って音声区間とする第2のエラー率とを算出し、
    第1のエラー率と第2のエラー率との比が所定の値に近づくように判定用閾値を更新する
    請求項7から請求項10のうちのいずれか1項に記載のパラメータ調整方法。
  12. 音声区間数および非音声区間数が既知の音声データを音として出力させ、
    前記音を音声信号に変換する
    請求項7から請求項11のうちのいずれか1項に記載のパラメータ調整方法。
  13. コンピュータに、
    音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、前記判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出処理、
    前記整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出処理、および、
    区間数算出処理で算出した音声区間数と正解音声区間数との差分または区間数算出処理で算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新処理
    を実行させるための音声検出プログラム。
  14. コンピュータに、
    判定結果導出処理で、
    音声データの時系列からフレームを切り出すフレーム切り出し処理、
    切り出されたフレームの特徴量を算出する特徴量算出処理、
    前記特徴量との比較対象となる判定用閾値と、特徴量算出処理で算出した特徴量とを比較して、前記フレームが音声区間に該当するか非音声区間に該当するかを判定する判定処理、および、
    同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続している前記フレームに対する判定結果を変更することにより、判定処理の判定結果を整形する判定結果整形処理を実行させる
    請求項13に記載の音声検出プログラム。
  15. コンピュータに、
    判定結果整形処理で、
    音声区間に該当すると判定されたフレームの連続数が第1の継続長閾値より小さい場合に、音声区間に該当すると判定された連続している前記フレームに対する判定結果を非音声区間に変更させ、非音声区間に該当すると判定されたフレームの連続数が第2の継続長閾値より小さい場合に、非音声区間に該当すると判定された連続している前記フレームに対する判定結果を音声区間に変更させ、
    継続長閾値更新処理で、
    区間数算出処理で算出した音声区間数と正解音声区間数との差分が小さくなるように第1の継続長閾値を更新させ、区間数算出処理で算出した非音声区間数と正解非音声区間数との差分が小さくなるように第2の継続長閾値を更新させる
    請求項14に記載の音声検出プログラム。
  16. コンピュータに、
    区間数算出処理で、連続して同じ判定結果となっている1つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出させる
    請求項14または請求項15に記載の音声検出プログラム。
  17. コンピュータに、
    音声区間を誤って非音声区間と判定する第1のエラー率と、非音声区間を誤って音声区間とする第2のエラー率とを算出するエラー率算出処理、および、
    第1のエラー率と第2のエラー率との比が所定の値に近づくように判定用閾値を更新する判定用閾値更新処理
    を実行させる請求項13から請求項16のうちのいずれか1項に記載の音声検出プログラム。
  18. コンピュータに、
    音声区間数および非音声区間数が既知の音声データを音としてスピーカに出力させる音声信号出力処理、および、
    前記音を音声信号に変換する音声変換処理
    を実行させる請求項13から請求項17のうちのいずれか1項に記載の音声検出プログラム。
JP2010542839A 2008-12-17 2009-12-07 音声検出装置、音声検出プログラムおよびパラメータ調整方法 Active JP5299436B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010542839A JP5299436B2 (ja) 2008-12-17 2009-12-07 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008321551 2008-12-17
JP2008321551 2008-12-17
PCT/JP2009/006666 WO2010070840A1 (ja) 2008-12-17 2009-12-07 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JP2010542839A JP5299436B2 (ja) 2008-12-17 2009-12-07 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Publications (2)

Publication Number Publication Date
JPWO2010070840A1 true JPWO2010070840A1 (ja) 2012-05-24
JP5299436B2 JP5299436B2 (ja) 2013-09-25

Family

ID=42268522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010542839A Active JP5299436B2 (ja) 2008-12-17 2009-12-07 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Country Status (3)

Country Link
US (1) US8812313B2 (ja)
JP (1) JP5299436B2 (ja)
WO (1) WO2010070840A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9293131B2 (en) 2010-08-10 2016-03-22 Nec Corporation Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program
CN103167066A (zh) * 2011-12-16 2013-06-19 富泰华工业(深圳)有限公司 手机及其噪声检测方法
JP5988077B2 (ja) * 2012-03-02 2016-09-07 国立研究開発法人情報通信研究機構 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
CN104335600B (zh) * 2013-02-25 2017-08-08 展讯通信(上海)有限公司 多麦克风移动装置中检测及切换降噪模式的方法
US20160267924A1 (en) * 2013-10-22 2016-09-15 Nec Corporation Speech detection device, speech detection method, and medium
US20160275968A1 (en) * 2013-10-22 2016-09-22 Nec Corporation Speech detection device, speech detection method, and medium
FR3014237B1 (fr) * 2013-12-02 2016-01-08 Adeunis R F Procede de detection de la voix
KR20150105847A (ko) * 2014-03-10 2015-09-18 삼성전기주식회사 음성구간 검출 방법 및 장치
CN105100508B (zh) * 2014-05-05 2018-03-09 华为技术有限公司 一种网络语音质量评估方法、装置和系统
CN104168394B (zh) * 2014-06-27 2017-08-25 国家电网公司 一种呼叫中心抽样质检方法及系统
JP6766346B2 (ja) * 2015-11-30 2020-10-14 富士通株式会社 情報処理装置、活動状態検出プログラムおよび活動状態検出方法
CN108550371B (zh) * 2018-03-30 2021-06-01 云知声智能科技股份有限公司 智能语音交互设备快速稳定的回声消除方法
US10892772B2 (en) * 2018-08-17 2021-01-12 Invensense, Inc. Low power always-on microphone using power reduction techniques
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
US20220392472A1 (en) * 2019-09-27 2022-12-08 Nec Corporation Audio signal processing device, audio signal processing method, and storage medium
CN112235469A (zh) * 2020-10-19 2021-01-15 上海电信科技发展有限公司 人工智能呼叫中心录音质检的方法及系统
US11848019B2 (en) * 2021-06-16 2023-12-19 Hewlett-Packard Development Company, L.P. Private speech filterings
WO2024084998A1 (ja) * 2022-10-19 2024-04-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響処理装置及び音響処理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62223798A (ja) * 1986-03-25 1987-10-01 株式会社リコー 音声認識装置
JPH0731509B2 (ja) * 1986-07-08 1995-04-10 株式会社日立製作所 音声分析装置
ATE241195T1 (de) 2000-09-29 2003-06-15 Ericsson Telefon Ab L M Verfahren und einrichtung zur analyse einer folge von gesprochenen nummern
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
JP4433704B2 (ja) 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
JP4798601B2 (ja) * 2004-12-28 2011-10-19 株式会社国際電気通信基礎技術研究所 音声区間検出装置および音声区間検出プログラム
JP2007017620A (ja) 2005-07-06 2007-01-25 Kyoto Univ 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
JP4607908B2 (ja) * 2007-01-12 2011-01-05 株式会社レイトロン 音声区間検出装置および音声区間検出方法
JP4563418B2 (ja) 2007-03-27 2010-10-13 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation

Also Published As

Publication number Publication date
JP5299436B2 (ja) 2013-09-25
WO2010070840A1 (ja) 2010-06-24
US8812313B2 (en) 2014-08-19
US20110251845A1 (en) 2011-10-13

Similar Documents

Publication Publication Date Title
JP5299436B2 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US8315856B2 (en) Identify features of speech based on events in a signal representing spoken sounds
JP2005043666A (ja) 音声認識装置
US7593847B2 (en) Pitch detection method and apparatus
JP5234117B2 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US20110238417A1 (en) Speech detection apparatus
EP2927906B1 (en) Method and apparatus for detecting voice signal
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
US8103512B2 (en) Method and system for aligning windows to extract peak feature from a voice signal
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
EP0537316B1 (en) Speaker recognition method
JP2020008730A (ja) 感情推定システムおよびプログラム
JP2004145154A (ja) 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
JP4524866B2 (ja) 音声認識装置、及び音声認識方法
JP2005070377A (ja) 音声認識装置、音声認識方法及び音声認識処理プログラム
JP2005266098A (ja) 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法
Hagmüller et al. Poincaré sections for pitch mark determination in dysphonic speech
Kubin et al. Voice Analysis-Poincaré Sections for Pitch Mark Determination in Dysphonic Speech
JP2006071956A (ja) 音声信号処理装置及びプログラム
JPH1049190A (ja) 音声認識装置および音声認識方法
Juraj et al. Automatic phoneme detection using CLPC

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Ref document number: 5299436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150