本発明は入力音を識別し、入力音の種別と各種別の区間とを出力する音識別装置に関する。
従来、音識別装置は、特定の音の音響的な特徴を抽出することにより、発生音源や機器に関する情報の抽出法として広く利用されている。たとえば、車外の救急車やサイレンの音を検出し車内に通知させるためや、工場で生産される製品のテスト時に製品動作音を分析し異常音を検出することによって、不良機器を発見するためなどに用いられている。一方、識別対象音を特定の音に限定せずに、様々な音が混在したり、入れ替わり発生したりする混合環境音から、発生した音の種類やカテゴリを識別する技術も近年求められるようになっている。
発生した音の種類やカテゴリを識別する技術として特許文献1がある。特許文献1に記載の情報検出装置は、入力された音データを所定の時間単位毎にブロックに分け、ブロック毎に音声「S」と音楽「M」とに分類する。図1は、音データを時間軸上で分類された結果を模式的に示した図である。続いて、情報検出装置は、所定の時間単位Lenにおける分類された結果を時刻t毎に平均化し、音種別が「S」または「M」である確率を表す識別頻度Ps(t)またはPm(t)を算出する。図1では、時刻t0における所定単位時間Lenを模式的に示している。例えば、Ps(t0)を算出する場合は、所定時間単位Lenに存在する音種別「S」の数の和を所定時間単位Lenで割って識別頻度Ps(t0)を算出する。続いて、予め決めた閾値P0とPs(t)または閾値P0とPm(t)とを比較し、閾値P0を越えるか否かで音声「S」または音楽「M」の区間を検出する。
特開2004−271736号公報(段落番号0025−0035)
しかしながら、特許文献1では、それぞれの時刻tにおける識別頻度Ps(t)等を算出する場合に、同一の所定時間単位Len、すなわち固定値の所定時間単位Lenを使用しているため、次のような課題を有している。
一つ目は、突発音が頻繁に発生した場合に区間検出が不正確になるという課題である。突発音が頻繁に発生した場合、各ブロックの音種別の判断が不正確になり、実際の音種別と各ブロックで判断される音種別とが間違うことが頻繁に起こる。このような間違いが頻繁に発生すると、所定時間単位Lenにおける識別頻度Ps等が不正確になるため、最終的な音声または音楽区間の検出が不正確になる。
二つ目は、識別したい音(ターゲット音)と背景音との関係によってターゲット音の認識率が所定時間単位Lenの長さに依存するという課題である。すなわち、固定値である所定時間単位Lenを用いてターゲット音の識別を行った場合には、背景音によってターゲット音の認識率が低下するという課題がある。なお、この課題については後述する。
本発明は、上述の課題を解決するためになされたものであり、突発音が発生しても、さらには背景音とターゲット音との組み合わせが変動しても識別率の低下がおこりにくい音識別装置を提供することを目的とする。
本発明に係る音識別装置は、入力音信号の種別を識別する音識別装置であって、入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するフレーム音特徴量抽出部と、各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するフレーム尤度算出部と、前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定する信頼度判定部と、前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定する累積尤度出力単位時間決定部と、前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出する累積尤度算出部と、前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定する音種別候補判定部と、前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出する音種別頻度算出部と、前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する音種別区間決定部とを備えることを特徴とする。
例えば、前記信頼度判定部は、前記フレーム尤度算出部で算出された各フレームの音特徴量の各音モデルに対するフレーム尤度に基づいて、前記所定の信頼度を判定する。
この構成によると、所定の信頼度、例えばフレーム尤度に基づいたフレームの信頼度に基づいて累積出力単位時間を決定している。このため、信頼度が高い場合には、累積尤度出力単位時間を短くし、信頼度が低い場合には累積尤度出力単位時間を長くすることにより、音種別を判別するためのフレーム数を可変にすることができる。このため、信頼度が低い突発的な異常音などの短時間の影響を低減することができる。このように、信頼度に基づいて、累積尤度出力単位時間を変化させているため、背景音と識別対象音との組み合わせが変動しても識別率の低下がおこりにくい、音識別装置を提供することができる。
好ましくは、前記信頼度が所定の閾値よりも小さいフレームに対しては前記フレーム尤度を累積しない。
この構成によると、信頼度が低いフレームを無視する。このため、音の種別を精度良く識別することができる。
なお、前記信頼度判定部は、前記累積尤度算出部で算出された前記累積尤度に基づいて、前記信頼度を判定してもよい。
また、前記信頼度判定部は、前記累積尤度算出部で算出された前記音モデルごとの累積尤度に基づいて、前記信頼度を判定してもよい。
さらに、前記信頼度判定部は、前記フレーム音特徴量抽出部で抽出される音特徴量に基づいて、前記信頼度を判定してもよい。
なお、本発明は、このような特徴的な手段を備える音識別装置として実現することができるだけでなく、音識別装置に含まれる特徴的な手段をステップとする音識別方法として実現したり、音識別方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音識別装置によれば、フレーム等の信頼度に基づいて、累積尤度出力単位時間を可変としている。このため、突発音が発生しても、さらには背景音とターゲット音の組み合わせが変動しても識別率の低下がおこりにくい音識別装置を提供することができる。
図1は、特許文献1における識別頻度情報の概念図である。
図2は、本発明における頻度による音識別性能結果表である。
図3は、本発明の実施の形態1における音識別装置の構成図である。
図4は、本発明の実施の形態1における2つの単位時間と頻度とによる音種別判定法フローチャートである。
図5は、本発明の実施の形態1のフレーム信頼度判定部の実行する処理のフローチャートである。
図6は、本発明の実施の形態1の累積尤度出力単位時間決定部の実行する処理のフローチャートである。
図7は、本発明の実施の形態1のフレーム信頼度を用いた累積尤度計算部の実行する処理のフローチャートである。
図8は、本発明の実施の形態1のフレーム信頼度を用いた識別頻度の算出手法を示す概念図である。
図9は、本発明の実施の形態1における音識別装置の第二の構成図である。
図10は、本発明の実施の形態1のフレーム信頼度判定部の実行する処理の第二のフローチャートである。
図11は、本発明の実施の形態1のフレーム信頼度を用いた累積尤度計算部の実行する処理の第二のフローチャートである。
図12は、音種別候補判定部が実行する処理のフローチャートである。
図13は、本発明の実施の形態1のフレーム信頼度を用いた識別頻度の算出手法を示す第二の概念図である。
図14は、本発明の実施の形態2における音識別装置の構成図である。
図15は、本発明の実施の形態2のフレーム信頼度判定部の実行する処理のフローチャートである。
図16は、本発明の実施の形態2のフレーム信頼度判定部の実行する処理の第二のフローチャートである。
図17は、本発明の実施の形態2における音識別装置の第二の構成図である。
図18は、本発明の実施の形態2の音種別候補の信頼度を用いた累積尤度計算処理を示すフローチャートである。
図19は、音種別区間決定部において、識別単位時間T内の累積尤度出力単位時間Tkにおける音種別毎の出現頻度を利用して複数の識別単位区間にわたり再計算をした場合(図19(b))と出現頻度を利用しなかった場合(図19(a))との音種別および区間情報出力例を示す図である。
図20は、本発明の実施の形態3における音識別装置の構成図である。
図21は、本発明の実施の形態3のフレーム信頼度判定部の実行する処理のフローチャートである。
符号の説明
101 フレーム音特徴量抽出部
102 フレーム尤度算出部
103 累積尤度算出部
104 音種別候補判定部
105 音種別区間決定部
106 音種別頻度算出部
107 フレーム信頼度判定部
108 累積尤度出力単位時間決定部
109 フレーム信頼度判定部
110 フレーム信頼度判定部
111 音種別候補信頼度判定部
以下本発明の実施の形態について、図面を参照しながら説明する。
まず、本発明の実施の形態について説明する前に、本願発明者らが行なった実験より得られた知見について説明する。特許文献1に記載された手法のように、最尤モデルの頻度情報を用いて、ターゲット音と背景音との組み合わせを変えた混合音に対して音識別実験を行なった。統計的学習モデル(以下、適宜「モデル」という。)の学習には、背景音に対してターゲット音を15dBとして合成した音を用いた。また、音識別実験には、背景音に対してターゲット音を5dBとした合成音を用いた。
図2は、この音識別実験の結果を示す図である。図2は、識別頻度算出のための識別単位時間Tを100フレームに固定し、累積尤度算出のための累積尤度出力単位時間Tkを1、10、100フレームと変化させた場合における識別率を百分率で表している。すなわち、累積尤度出力単位時間Tk=100および識別単位時間T=100の場合には、ひとつの単位時間でひとつの累積尤度に基づいてひとつの頻度情報を出力していることになる。このため、累積尤度のみを用いた手法と同等な処理になる。
ここで、結果を詳細に見ていく。環境音N1からN17を背景音とする時、識別対象音が音声M001や音楽M4の場合には、Tk=1とするときが最良の識別結果となっていることがわかる。つまり、Tk=100とした累積尤度による手法に対しては効果が見られないことが分かる。一方で、同じ環境音(N13を除く)が背景音で、識別対象音が環境音N13の場合には、Tk=100の場合が最良という結果になっている。このように、背景音の種類によって最適なTkの値が異なるという傾向は、背景音が音楽または音声の場合にも見て取れる。
すなわち、背景音とターゲット音との組み合わせにより、識別率が最良となるときの累積尤度出力単位時間Tkの値が変動することがわかる。逆に、累積尤度出力単位時間Tkの値を特許文献1のように固定値にすると、識別率が低下する場合も見受けられる。
本発明は、この知見に基づいてなされたものである。
本発明では、複数フレームの累積尤度結果に基づいた頻度情報を用いて音識別を行うにあたり、予め学習しておいた識別対象音のモデルを用いる。識別対象音としては、音声、音楽を想定し、環境音として駅、自動車走行音、踏切等の生活騒音を想定する。それぞれの音を、あらかじめ特徴量に基づいてモデル化しておくものとする。
(実施の形態1)
図3は、本発明の実施の形態1における音識別装置の構成図である。
音識別装置は、フレーム音特徴量抽出部101と、フレーム尤度算出部102と、累積尤度算出部103と、音種別候補判定部104と、音種別区間決定部105と、音種別頻度算出部106と、フレーム信頼度判定部107と、累積尤度出力単位時間決定部108とを備えている。
フレーム音特徴量抽出部101は、入力音をたとえば10msec長のフレームごとに、Mel−Frequency Cepstrum Coefficients(MFCC)等の音特徴量に変換する処理部である。ここで、音特徴量の算出単位となるフレーム時間長は10msecとして説明を行ったが、識別対象となるターゲット音の特徴に応じて、フレーム時間長を5msec〜250msecとして算出するようにしても良い。フレーム時間長を5msecとすると、極短時間の音の周波数特徴やその変化をも捕らえることができるので、例えばビート音や突発音などの音の早い変化を捉えて識別するために用いると良い。一方、フレーム時間長を250msecとすると、準定常的な連続音などの周波数特徴を良く捕らえることができるので、例えばモータ音などの変動が遅いあるいはあまり変動が少ない音の周波数特徴を捉えることができるので、このような音を識別するために用いると良い。
フレーム尤度算出部102は、モデルとフレーム音特徴量抽出部101で抽出された音特徴量との間のフレームごとの尤度であるフレーム尤度を算出する処理部である。
累積尤度算出部103は、所定数のフレーム尤度を累積した累積尤度を算出する処理部である。
音種別候補判定部104は、累積尤度にもとづいて音種別の候補を判定する処理部である。音種別頻度算出部106は、音種別候補毎に識別単位時間Tにおける頻度を算出する処理部である。音種別区間決定部105は、音種別候補ごとの頻度情報に基づいて、識別単位時間Tにおける音識別とその区間とを決定する処理部である。
フレーム信頼度判定部107は、フレーム尤度算出部102で算出されたフレーム尤度を検証することにより、フレーム尤度にもとづくフレーム信頼度を出力する。累積尤度出力単位時間決定部108では、フレーム信頼度判定部107より出力されるフレーム尤度に基づくフレーム信頼度に基づいて、累積尤度を頻度情報に変換する単位時間である累積尤度出力単位時間Tkを決定し、出力する。したがって、累積尤度算出部103は、累積尤度出力単位時間決定部108の出力にもとづいて、信頼度が十分に高いと判断される場合にフレーム尤度を累積した累積尤度を算出するように構成されている。
より具体的には、フレーム尤度算出部102は、式(1)に基づいて、たとえば「S.Young,D.Kershaw,J.Odell,D.Ollason,V.Valtchev,P.Woodland,″The HTK Book(for HTK Version 2.2),7.1 The HMM Parameter″.(1999−1)」に示される、Gaussian Mixture Model(以降「GMM」と記す)であらかじめ学習しておいた識別対象音特徴モデルMiと、入力音特徴量Xとの間でフレーム尤度Pを算出する。
また、累積尤度算出部103は、式(2)に示されるように、各学習モデルMiに対する尤度P(X(t)|Mi)の累積値として、所定の単位時間における累積尤度Liを算出し、最大の累積尤度を示すモデルIを選択して、この単位区間における尤もらしい識別音種類として出力する。
さらに、音種別候補判定部104は、式(3)の第二式に示されるように、累積尤度出力単位時間Tkごとに、累積尤度算出部103から出力される各学習モデルiに対する累積尤度が最大となるモデルを、音種別候補とする。音種別頻度算出部106および音種別区間決定部105は、式(3)の第一式に示されるように、頻度情報をもとに識別単位時間Tにおける最大頻度をもつモデルを出力することにより、音識別結果を出力する。
次に、本発明の実施の形態1を構成する各ブロックの具体的な手続きについてフローチャートを用いて説明する。
図4は、累積尤度出力単位時間Tkごとに累積尤度を頻度情報に変換し、識別単位時間Tごとに音識別結果を決定する手法の手順を示すフローチャートである。
フレーム尤度算出部102は、フレームtにおける入力音特徴量X(t)に対して、識別対象音の音特徴モデルMiのフレーム尤度Pi(t)をそれぞれ求める(ステップS1001)。累積尤度算出部103は、ステップS1001から得られた入力特徴量X(t)に対する各モデルのフレーム尤度を累積尤度出力単位時間Tkに渡って累積することによって各モデルの累積尤度を算出し(ステップS1007)、音種別候補判定部104は、尤度最大となるモデルをその時刻における音種別候補として出力する(ステップS1008)。音種別頻度算出部106は、識別単位時間Tの区間にわたり、ステップS1008で算出した音種別候補の頻度情報を算出する(ステップS1009)。最後に、音種別区間決定部105は、得られた頻度情報より、頻度が最大となる音種別候補を選択して、この識別単位時間Tでの識別結果として出力する(ステップS1006)。
この手法は、ステップS1007における累積尤度出力単位時間Tkを、識別単位時間Tと同じ値に設定すると、識別単位時間あたり最大頻度をひとつ出力する累積尤度の手法として捉えることもできる。また、累積尤度出力単位時間Tkを1フレームと考えると、フレーム尤度を基準に最尤モデルを選択する手法と捉えることもできる。
図5は、フレーム信頼度判定部107の動作例を示すフローチャートである。フレーム信頼度判定部107は、フレーム尤度に基づいて、フレーム信頼度を算出する処理を行う。
フレーム信頼度判定部107は、予め、フレーム尤度にもとづくフレーム信頼度を最大値(図中では1)に初期化する(ステップS1011)。フレーム信頼度判定部107は、ステップS1012,ステップS1014およびステップS1015の3つの条件式のいずれかを満足する場合には、異常値つまり信頼度を最低値(図中では0)にセットすることにより信頼度判定を行う(ステップS1013)。
フレーム信頼度判定部107は、ステップS1001で算出した入力音特徴量X(t)の各モデルMiに対するフレーム尤度Pi(t)が異常値閾値TH_over_Pを超えるかどうかまたは異常値閾値TH_under_P未満かどうかを判断する(ステップS1012)。各モデルMiに対するフレーム尤度Pi(t)が異常値閾値TH_over_Pを超える場合または異常値閾値TH_under_P未満の場合には、信頼度がまったく無いものと考えられる。この場合には、入力音特徴量が想定外の範囲であるか学習に失敗したモデルを用いている場合が考えられる。
また、フレーム信頼度判定部107は、フレーム尤度Pi(t)と前フレーム尤度Pi(t−1)との間の変動が小さいかどうかを判定する(ステップS1014)。実環境の音は常に変動しているものであり、音入力が正常に行われていれば、尤度にも音の変動に呼応した変動が認められるものである。したがって、フレームが変わっても尤度の変動が認められないほど小さい場合には、入力音そのものまたは音特徴量の入力が途絶えているものと考えられる。
さらに、フレーム信頼度判定部107は、算出されたフレーム尤度Pi(t)の中で、その最大となるモデルに対するフレーム尤度値と最小となるモデル尤度値の差が閾値より小さいかどうかを判定する(ステップS1015)。これは、モデルに対するフレーム尤度の最大値と最小値との差が閾値以上ある場合には、入力音特徴量と近い優位なモデルが存在し、この差が極端に小さい場合には、いずれのモデルも優位ではないということを示すと考えられる。そこで、これを信頼度として利用するものである。そこで、フレーム尤度最大値と最小値との差が閾値以下である場合には(ステップS1015でY)、フレーム信頼度判定部107は、異常値に該当するフレームとして、該当フレーム信頼度を0にセットする(ステップS1013)。一方、比較結果が閾値以上である場合には(ステップS1015でN)、優位のモデルが存在するものとして、フレーム信頼度に1を与えることができる。
このようにフレーム尤度に基づきフレーム信頼度を算出し、フレーム信頼度が高いフレームに関する情報を用いて、累積尤度出力単位時間Tkを決定し、頻度情報を算出することができる。
図6は、累積尤度出力単位時間決定部108の動作例を示す累積尤度出力単位時間決定手法のフローチャートである。累積尤度出力単位時間決定部108は、現在の累積尤度出力単位時間Tkで決定される区間において、フレーム尤度によるフレーム信頼度R(t)の出現傾向を調べるためにフレーム信頼度の頻度情報を算出する(ステップS1021)。分析した出現傾向から、入力音特徴量等が異常であることを示すように、フレーム信頼度が0である、もしくはフレーム信頼度R(t)が0に近い値が頻発している場合には(ステップS1022でY)、累積尤度出力単位時間決定部108は、累積尤度出力単位時間Tkを増加させる(ステップS1023)。
フレーム信頼度R(t)が1に近い値が頻発している場合には(ステップS1024でY)、累積尤度出力単位時間決定部108は、累積尤度出力単位時間Tkを減少させる(ステップS1025)。このようにすることによって、フレーム信頼度R(t)が低い場合には、フレーム数を長くして累積尤度を求め、フレーム信頼度R(t)が高い時には、フレーム数を短くして累積尤度を求めて、その結果に応じた頻度情報を得ることができるため、従来の方法に比較して、相対的に短い識別単位時間で同じ精度の識別結果が自動的に得られるようになる。
図7は、累積尤度算出部103の動作例を示す累積尤度算出手法のフローチャートである。図7において、図4と同じ構成要素については同じ符号を用い、説明を省略する。累積尤度算出部103は、モデルごとの累積尤度Li(t)を初期化する(ステップS1031)。小規模素片接続部103は、ステップS1032からステップS1034で示されるループにおいて、累積尤度を算出する。このとき、小規模素片接続部103は、フレーム尤度に基づくフレーム信頼度R(t)が異常を示す0かどうか判定を行い(ステップS1033)、0で無い場合にのみ(ステップS1033でN)、ステップS1007で示されるように、モデルごとの累積尤度を算出する。このように、累積尤度算出部103は、フレーム信頼度を考慮して累積尤度を算出することにより、信頼度がない音情報を含まずに累積尤度を算出することができる。このため、識別率を上げることができることが期待できる。
音種別頻度算出部106においては、図7のように出力された頻度情報を、所定の識別単位時間Tの間累積し、音種区間決定部105においては、式3に従って、識別単位区間における頻度が最大となるモデルを選択し識別単位区間を、決定する。
図8は、図3に示した音識別装置を用いて出力される頻度情報の算出法を示す概念図である。この図においては、音種として音楽が入力されている場合の具体的な識別結果例を挙げて、本発明の効果について説明する。識別単位時間Tの中で、入力音特徴量1フレームごとにモデルに対する尤度をそれぞれ求め、各モデルに対する尤度群より、フレーム信頼度をフレームごとに算出する。図中の横軸は、時間軸を示しており、ひとつの区切りを1フレームとしている。このとき、算出された尤度信頼度は、最大値1または最小値0のいずれかの値が与えられるものとし、最大値1のとき、尤度の信頼度があり、最小値0のとき、尤度の信頼度がない異常値とみなすことができる指標とする。
従来法つまり累積尤度出力単位時間Tkが固定の条件では、1フレームごとに得られた尤度のうち最大尤度となるモデルの頻度情報を算出する。従来法は、信頼度を用いない手法であるため、出力される最尤モデルの頻度情報がそのまま反映されることになる。音識別結果として出力される情報は、区間単位の頻度情報で決定される。この図の例では、識別単位時間Tの中で、音種M(音楽)が2フレーム、音種S(音声)が4フレームという頻度結果であることから、この識別単位時間Tにおける最大頻度のモデルは音種S(音声)となり誤識別の結果が得られることとなる。
一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、図中段のように、1フレームごとに信頼度が、1か0かの値で示されており、この信頼度を用いて累積尤度を算出するための単位時間が変化することにより、頻度情報が出力される。たとえば、信頼度なしと判断されたフレームの尤度は、直接頻度情報に変換されず、信頼度ありと判断されたフレームに達するまで、累積尤度として算出される。この例では、信頼度が0となっている区間が存在する結果、識別単位時間Tにおける最多頻度情報は、音種M(音楽)が頻度情報として出力される。識別単位時間Tにおける最大頻度のモデルは音種M(音楽)となることから、正しい種別として識別ができていることがわかる。したがって、本発明の効果として、信頼度がないと判断されるフレーム尤度を直接用いないことで、不安定な頻度情報を吸収することにより識別結果を高めることが期待できる。
かかる構成によれば、累積尤度情報を頻度情報に変換する際に、尤度信頼度に基づいた頻度情報に変換することにより、突発的な異常音などが頻繁に発生して音の種別の入れ替わりが頻繁する場合であっても、累積尤度算出単位時間の長さを適切に設定できる(信頼度が所定値よりも高い場合は累積尤度算出単位時間を短く、信頼度が所定値よりも低い場合は累積尤度算出単位時間を長く設定できる)。このため、音の識別率の低下を抑制することができる。さらに、背景音やターゲット音が変化した場合でも、より適切な累積尤度算出単位時間に基づいて音の識別ができるため、音の識別率の低下を抑制することができる。
つぎに、本発明の実施の形態1における音識別装置の第二の構成図である図9について説明する。図9において、図3と同じ構成要素については同じ符号を用い、説明を省略する。
図9において、図3との違いとしては、音種別頻度算出部106が、音種別候補判定部104から出力される音種別候補情報から音種別頻度情報を算出する際に、フレーム信頼度判定部107から出力されるフレーム信頼度を用いて算出するように構成されている点が異なる。
かかる構成によれば、累積尤度情報から算出された音種別候補を頻度情報に変換する際に、尤度信頼度に基づいた頻度情報に変換することにより、突発的な異常音などの短時間の影響を低減することができるため、背景音やターゲット音が変化してもより適切な累積尤度算出単位時間に基づいて識別率の低下を抑制することができる。
図10は、フレーム尤度によるフレーム信頼度判定手法として、フレーム信頼度判定部107が実行する第二の手法例を示すフローチャートである。図10において、図5と同じ処理については同じ符号を用い、説明を省略する。図5の手法では、ステップS1015において、フレーム信頼度判定部107が、入力特徴量に対する各モデルのフレーム尤度を算出し、その最大となるモデルのフレーム尤度値と最小となるモデルのフレーム尤度値の差が閾値より小さいかどうかを用いて、信頼度の値を0か1かに設定していた。
ここでは、フレーム信頼度判定部107が信頼度を0か1かのいずれかに設定するのではなく、フレーム信頼度判定部107が0から1の中間値をとるように信頼度を与える。具体的には、ステップS1016のように、フレーム信頼度判定部107は、信頼度のさらなる基準として、最大値をとるモデルのフレーム尤度がどの程度優位性のあるのかを判断する尺度とみなす基準を加えることもできる。そこで、フレーム信頼度判定部107は、フレーム尤度の最大値と最小値の比を信頼度として与えるようにしてもよい。
図11は、累積尤度算出部103の、図7とは別の動作例を示す累積尤度算出方法のフローチャートである。図11において、図7と同じ処理については同じ符号を用い、説明を省略する。この動作例では、累積尤度算出部103は、出力する頻度情報の個数を初期化しておき(ステップS1035)、累積尤度算出の際に、フレーム信頼度が1に近いかどうかを判定する(ステップS1036)。フレーム信頼度が十分に高いと認められる場合には(ステップS1036でY)、累積尤度算出部103は、該当フレームの頻度情報を直接出力するために、最尤モデル識別子の保存を行っておく(ステップS1037)。そして、図12のステップS1038で表される音種別候補判定部104が実行する処理において、単位識別区間Tkにおける累積尤度が最大のモデルを加えて、ステップS1037において保存しておいた複数の最大モデルによる音種別候補を出力する。図4のステップS1008では一つの音種別候補を用いるのに対して、音種別候補判定部104は、このように信頼度が高いフレームがk個存在する場合にはk+1個の音種別候補を出力することになる。このため、結果として、信頼度の高いフレームの情報に重み付けがなされた、頻度情報つきの音種別候補が算出されることとなる。
音種別頻度算出部106は、図11および図12の処理に従い出力された音種別候補を、識別単位時間Tの間累積することによって頻度情報を求める。また、音種区間決定部105は、式3に従って、識別単位区間における頻度が最大となるモデルを選択し、識別単位区間を決定する。
なお、音種別区間決定部105は、フレーム信頼度が高く頻度情報が集中している区間に限定して最大の頻度情報を有するモデルを選択して、音の種別とその区間を決定するようにしてもよい。このようにフレーム信頼度の低い区間での情報を用いないことによって、識別の精度向上が期待できる。
図13は、図3または図9に示した音識別装置により出力される頻度情報の算出法を示す概念図である。識別単位時間Tの中で、入力音特徴量1フレームごとにモデルに対する尤度をそれぞれ求め、各モデルに対する尤度群より、フレーム信頼度をフレームごとに算出する。図中の横軸は、時間軸を示しており、ひとつの区切りが1フレームとしている。このとき、算出された尤度信頼度は、最大値1および最小値0となるように正規化されているものとし、最大値1に近いほど尤度の信頼度があり(図中では一フレームでも識別十分な状態A)、最小値0に近いほど(図中では、該フレームの信頼度がまったくない状態C)、(その中間が状態B)尤度の信頼度が低いとみなすことができる指標とする。この例では、図11に示したように、算出された尤度信頼度を2つの閾値を用いて検証することにより、フレーム累積度を算出している。一つ目の閾値は、出力された尤度の1フレームが十分に大きく、信頼に足るものかどうか判断するものである。図の例では、信頼度が0.50以上の場合に、1フレームで頻度情報に変換可能とみなしている。2つ目の閾値は、出力された尤度信頼度が低すぎるために頻度情報には変換しないかどうかを判断するものである。図の例では、信頼度が0.04未満の場合に、該当する。この2つの閾値の間に尤度信頼度がある場合には、複数フレームでの累積尤度をもとに、頻度情報に変換するようにしている。
ここで具体的な識別結果例を挙げて、本発明の効果について説明する。従来法つまり累積尤度出力単位時間Tkが固定の条件では、1フレームごとに得られた尤度から最大累積尤度となるモデルの頻度情報を算出する。そのため、図8に示した結果と同様に、識別単位時間Tの中で、音種M(音楽)が2フレーム、音種S(音声)が4フレームという結果となり、この識別単位時間Tにおける最大頻度のモデルは音種S(音声)となってしまうため誤識別となる。
一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、1フレームでの頻度情報への変換に足る尤度のフレームからは、3段階の信頼度をもとに、累積尤度を可変長にしながら頻度情報を求めてゆくことができる。そのため、不安定な区間の頻度情報を直接用いることなく識別結果を得ることができるようになる。また、図中の例の識別対象区間Tの中の最後のフレームのように、信頼度が低く、頻度情報が結果的に用いられていないようなフレームに関しては、累積尤度の計算上無視することもできる。このようにすることで、信頼度の多段階化により、さらに精度よく識別を行うことができるものと期待できる。
なお、上記の例では識別単位時間Tにつき、識別判定結果をひとつ出力する例として説明したが、信頼度の高い区間あるいは低い区間を基点とした識別判定結果を複数出力するようにしてもよい。このような構成により、識別単位時間T当たりの識別結果が固定タイミングで出力されるのではなく、信頼度の高い区間の情報が可変化タイミングで適宜出力することができるため、たとえ識別単位時間Tを長めに設定しておいても信頼度により識別結果が確からしい区間では、すばやく結果を得られるようになる。識別単位時間Tを短めに設定しておいた場合にも、信頼度の高い区間の結果を早く得られることが可能である。
なおフレーム音特徴量抽出部101で使用する音特徴量学習モデルについては、MFCCを、モデルについては、GMMを用いるものと想定した説明を行ったが、本発明ではこれらに限定されるものではなく、特徴量として周波数特徴量を現すDFT(Discrete Fourier Transform)やDCT(Discrete Cosine Transform)やMDCT(Modified Discrete Cosine Transform)などを用いてもかまわない。また、モデル学習法としては、状態遷移を考慮してHMM(Hidden Markov Model)を用いてもよい。
また、PCA(主成分分析)などの統計的手法を用いて音特徴量の独立性などの成分分解あるいは成分抽出したうえで、モデル学習する手法を用いてもよい。
(実施の形態2)
図14は、本発明の実施の形態2の音識別装置の構成図である。図14において、図3と同じ構成要素については同じ符号を用い、説明を省略する。実施の形態1では、フレーム尤度に基づきフレーム単位の音情報信頼度を利用した方法であったが、本実施の形態では、累積尤度を用いて、フレーム信頼度を算出し、これを利用して、頻度情報を算出する。
図14において、フレーム信頼度判定部110は、累積尤度算出部103で算出された現時点のモデルごとの累積尤度を算出し、累積尤度出力単位時間決定部108において累積尤度出力単位時間を決定するように構成している。
図15は、フレーム信頼度判定部110により、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図15において、図5と同じ構成要素については同じ符号を用い、説明を省略する。フレーム信頼度判定部110は、ステップS1051からステップS1054において、単位時間における最尤累積尤度と僅差であるモデルの個数をカウントする。フレーム信頼度判定部110は、累積尤度算出部103において算出した各モデルの累積尤度に対して、最尤累積尤度との差が所定値以内になるかどうか、各モデルについて判定を行う(ステップS1052)。当該差が所定値内である場合には(ステップS1052でY)、フレーム信頼度判定部110は、候補としてその候補数をカウントし、そのモデル識別子を保存する(ステップS1053)。フレーム信頼度判定部110は、ステップS1055において、フレームごとに上記候補数を出力し、累積尤度モデルの候補数の変動が所定値以上であるか否かを判断する(ステップS1055)。所定地以上の場合には(ステップS1055でY)、フレーム信頼度判定部110は、フレーム信頼度に異常値0をセットし(ステップS1013)、所定値以下である場合には(ステップS1055でN)、フレーム信頼度判定部110は、フレーム信頼度に正常値1をセットする(ステップS1011)。
このような構成にすることによって、上記候補数の変化から、入力音の変動を見出すことが可能であり、識別対象音や背景音から構成される混合音の構成状況が変化していることが推測される。識別対象としている音が発生し続けて、背景音が変動している場合には、背景音の中で識別対象音と近い音が発生消滅を繰り返している場合に有用であると考えられる。
なお、上記のように算出した音種別候補、つまり最尤の累積尤度から所定値以内の識別子の組み合わせが変化したことを検知して、変化点であることあるいは候補数の増減値をフレーム信頼度として用いて頻度情報に変換してもよい。
図16は、フレーム信頼度判定部110における、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図16において、図5および図15と同じ構成要素については同じ符号を用い、説明を省略する。本手法では、図15とは反対に、最小の累積尤度を基準として、累積尤度が僅差となるモデルの候補数を用いて、信頼度を獲得する。フレーム信頼度判定部110は、ステップS1056からステップS1059までのループにおいて、単位時間における最小累積尤度と僅差であるモデルの数をカウントする。フレーム信頼度判定部110は、累積尤度算出部103において算出された各モデルの累積尤度に対して、最小累積尤度との差が所定値以下になるかどうか、各モデルについて判定を行う(ステップS1057)。所定値以下である場合には(ステップS1057でY)、フレーム信頼度判定部110は、候補数をカウントし、そのモデル識別子を保存する(ステップS1058)。フレーム信頼度判定部110は、上記ステップにおいて算出した、最小累積モデルの候補数の変動が所定値以上であるか否かを判断し(ステップS1060)、当該変動が所定値以上である場合には(ステップS1060でY)、フレーム信頼度判定部110は、フレーム信頼度を0にセットし信頼度なしと判断し(ステップS1013)、当該変動が所定値以下である場合には(ステップS1060でN)、フレーム信頼度を1にセットして信頼度ありと判断する(ステップS1011)。
なお、上記のように算出した音種別候補、つまり最低の累積尤度からの識別子の組み合わせが変化したことを検知して、変化点であることあるいは候補数の増減値をフレーム信頼度として用いて頻度情報に変換してもよい。
また、上記図15および図16では、それぞれ最大尤度および最小尤度となるモデルから、尤度が所定値の範囲内にあるモデルの個数を用いてフレーム信頼度の算出を説明したが、最大尤度から尤度が所定値の範囲内にあるモデルの個数と最小尤度から尤度が所定値の範囲内にあるモデルの個数との双方の情報を用いて、フレーム信頼度を算出し、頻度情報に変換するようにしてもよい。
なお、この最尤の累積尤度から尤度が所定値の範囲内にあるモデルとは、累積尤度を算出した区間の音種別としての確からしさが非常に高くなるモデルである。そこで、ステップS1053においてモデルごとに尤度が所定値内にあると判定されたモデルのみを信頼度があるものとして、モデルごとに信頼度を作成して、頻度情報への変換に利用してもよい。また、この最低の累積尤度から所定値内にあるモデルとは、累積尤度を算出した区間の音種別としての確からしさが非常に低くなるモデルである。そこで、ステップS1058においてモデルごとに所定値内にあると判定されたモデルのみを信頼度がないものとして、モデルごとに信頼度を作成して頻度情報への変換に利用してもよい。
なお、上記の構成では、累積尤度にもとづくフレーム信頼度を用いて頻度情報に変換する方法を説明したが、フレーム尤度にもとづくフレーム信頼度と、累積尤度にもとづくフレーム信頼度とを比較して、双方の一致区間を選択し、累積尤度にもとづくフレーム信頼度を重み付けするようにしてもよい。
このような構成により、累積尤度によるフレーム信頼度を用いながら、フレーム単位の短い応答を保つことができる。このため、累積尤度によるフレーム信頼度が連続して同じ音種別候補が出力されていても、フレーム尤度によるフレーム信頼度の遷移が行われているような区間を検出することができる。したがって、突発音などによる短時間の尤度劣化の検出も可能となる。
また、実施の形態1または実施の形態2では、尤度または累積尤度をもとに算出するフレーム信頼度を用いて頻度情報に変換する方法を説明したが、さらに音モデルごとに信頼度を設ける音種別候補信頼度を用いて頻度情報あるいは識別結果を出力するようにしてもよい。
図17は、本発明の実施の形態2の音識別装置の第二の構成図である。図17において、図3および図14と同じ構成要素については同じ符号を用い、説明を省略する。図14に示す実施の形態では、累積尤度によるフレーム信頼度を算出し頻度情報を出力したが、本構成では、累積尤度による音種別候補信頼度を算出しこれを利用して、頻度情報を算出する。
図17において、音種別候補信頼度判定部111は、累積尤度算出部103で算出された現時点のモデルごとの累積尤度を算出し、累積尤度出力単位時間決定部108において累積尤度出力単位時間を決定するように構成している。
図18は、最尤の音種別から所定値以内の累積尤度を持つ音種別候補を信頼度があるという基準にもとづいて算出される、音種別候補信頼度を用いた累積尤度計算処理のフローチャートである。図11と同じ構成要素については同じ符号を用い、説明を省略する。累積尤度算出部103は、識別単位時間内、最尤の累積尤度と累積尤度が所定値以内のモデルMiがある場合には(ステップS1062でY)、そのモデルを音種別候補として保存しておき(ステップS1063)、図12に示した流れで、音種別候補判定部104が音種別候補を出力する。
このような構成にすることによって、音種別候補信頼度を用いて、モデルごとに信頼度を設けることができるため、モデルに対して重み付けをした頻度情報を出力することが可能となる。また、所定数連続してあるいは一定の時間に対しての出力頻度が所定閾値よりも高い場合には、識別単位時間Tに達しなくても、音種別をして決定し区間情報とともに出力することで、より音識別区間の遅れなく出力することができる。
続いて、識別単位時間Tの区間から得られた頻度情報において、音種別の頻度差がほとんどない、つまり優位となる音種別が存在しないために陥る誤識別を抑制する音種別結果の出力方法について説明する。
上述したように、入力音として音楽(M)と音声(S)とが交互に入れ替わり、かつ、フレーム信頼度が高い場合には、識別単位時間Tに至らなくとも音種別候補が出力される。しかし、音楽(M)に近い音、背景音または雑音(N)が存在したり、交互に入れ替わる音声(S)または音楽(M)に近いモデルが多数存在し、1つのモデルを特定できない場合には、上記の場合と異なりフレーム信頼度が低下する。さらに、各累積尤度区間Tkが識別単位時間Tの区間に対して無視できない時間長で続くと、識別単位時間Tにおいて得られる頻度数が減少することになる。その結果として、識別単位時間Tにおいて音楽(M)や音声(S)の頻度差が少なくなる場合がある。このような場合には、識別単位時間Tにおける頻度最大モデルとして優位なモデルが存在せず、実際の音種別とは異なった音種別候補を出力するという課題が生じる。
そこで、変形例では、識別単位時間T内の累積尤度出力単位時間Tkにおける音種別毎の出現頻度を利用して、1つの識別単位時間Tから出力される音種別結果を信頼して良いかを判断する機能を図17の音識別頻度算出部106に持たせている。
図19は、音種別区間決定部105において、識別単位時間T内の累積尤度出力単位時間Tkにおける音種別毎の出現頻度を利用して複数の識別単位区間にわたり再計算をした場合(図19(b))と出現頻度を利用しなかった場合(図19(a))との音種別および区間情報出力例を示す。
この図19では、音種別区間決定部105による識別単位区間T0からT5において、各識別単位時間、モデル毎の出現頻度、総有効頻度数、総頻度数、識別単位時間ごとの頻度最大のモデル、最終的に音種別区間決定部106から出力される音種別結果および実際に発生した音の音種別について、列挙している。
まず、識別単位時間は、原則的には所定値T(この例では100フレーム)であるが、音種別頻度算出部106の累積尤度出力時にフレーム信頼度が所定フレーム連続して所定閾値より高い場合には識別単位時間が所定値Tにまで達しなくとも出力されるため、図中識別単位区間T3およびT4では、所定値よりも識別単位時間が短くなっていることを示している。
つぎに、モデル毎の出現頻度を示している。ここで「M」は音楽を示し、「S」は音声、「N」は雑音を示し、「X」は無音を示している。最初の識別時間単位T0における出現頻度を見ると、Mが36、Sが35、Nが5、Xが2である。したがって、この場合、最大の頻度であるモデルは、Mとなる。図19では識別単位区間ごとに出現頻度最大のモデルを下線で示している。ここで、図19中の「総頻度数」とは、各識別単位区間における頻度の合計であり、また「総有効頻度数」とは総頻度数から無音Xの出現頻度を除いた頻度の合計である。図中の識別単位区間T0やT1のように、識別単位区間のフレーム数(それぞれ100と100)よりも総頻度数が小さい区間(それぞれ78と85)では、図8や図13で示したように、累積尤度出力単位時間Tkが長くなったため、不安定な頻度情報が吸収されて頻度数が減少したことを示している。したがって、T0からT5の区間を通じた、識別単位時間ごとの頻度最大のモデルは、横方向を時間方向としてそれぞれ「MSSMSM」と出力されている。
図19の例に対して、音種別区間決定部106において、出現頻度を利用しない場合の音種別と区間情報出力について説明する。この場合には、音種別頻度算出部105からの音種別頻度に対する評価を行わずに、頻度最大のモデルをそのまま音種別として用い、またその連続している部分がある場合には区間を統合することで最終的に音種別と区間情報として出力される(識別単位時間T1とT2の区間が連結されて一つのSの区間となる。)。図19の例において、実際の音種別と比較すると、出現頻度を利用しない場合には、識別時間単位T0において、実際にはSであるにもかかわらず、音種別はMと出力されていることから、識別結果が誤ったまま何も改善されていないことが分かる。
そこで、出現頻度を利用する場合について説明する。図17の音識別頻度算出部106が出力する識別単位時間毎のモデル毎の頻度を利用して、識別単位時間における頻度最大のモデルが信頼できるかを示す頻度信頼度を用いて識別単位時間における頻度最大モデルが何であるか判断する。ここで、頻度信頼度は、識別単位区間内において、異なるモデルの出現頻度差を総有効頻度数(識別単位区間の総頻度数から無音区間Xなどの無効頻度を除いた数)で割った値とする。このとき頻度信頼度の値は、0から1の間の値をとる。例えば、音楽(M)か音声(S)かを判断する場合は、頻度信頼度の値は、MとSとの出現頻度の差を総有効頻度数で割った値となる。この場合には頻度信頼度は、識別単位区間におけてMとSとの差が小さければ0に近い小さい値となり、MとSとのどちらかが多ければ1に近い大きい値となる。MとSとの差が小さい、つまりこの頻度信頼度が0に近い値ということは、識別単位区間においてMとSとのどちらを信用して良いかわからない状態であることを示している。図19(b)では識別単位区間毎に頻度信頼度R(t)を計算した結果を示している。識別単位区間T0およびT1のように、頻度信頼度R(t)が所定値(0.5)を下回ったとき(0.01および0.39)、信頼できないものと判断するものとする。
このような判断基準を用いた具体的な手順について説明する。頻度信頼度R(t)が0.5以上の場合は識別単位区間の頻度最大のモデルをそのまま使用し、頻度信頼度R(t)が0.5よりも小さい場合は複数の識別単位区間においてモデル毎の頻度を再度計算して頻度最大のモデルを決定する。図19では頻度信頼度が低い最初の2つの識別単位区間T0とT1において、それぞれのモデル毎の頻度を足し、2つの区間にわたって再計算された頻度情報に基づいて、新たにその2つの識別単位区間の頻度最大モデルSと決定している。この結果、識別単位区間T0の識別結果は、音種別頻度算出部105から得られた最大頻度の音種別はMからSへと変わり、実際の音結果と一致することが分かる。
このように頻度信頼度が低い部分は、複数の識別単位区間におけるモデル毎の頻度を使用することで、雑音等の影響で識別単位区間の頻度最大モデルの頻度信頼度が低くなったとしても、正確に音種別を出力できる。
(実施の形態3)
図20は、本発明の実施の形態3の音識別装置の構成図である。図20において、図3および図14と同じ構成要素については同じ符号を用い、説明を省略する。本実施の形態では、音特徴量自身の信頼度を用いて、音特徴量自身のモデルごとの信頼度を算出しこれを利用して、頻度情報を算出する。さらに、出力情報として信頼度情報も出力を行う。
図20において、音特徴量によるフレーム信頼度判定部109は、フレーム音特徴量抽出部101で算出された音特徴量より、判定に適しているかどうか音特徴量を検証することにより音特徴量信頼度を出力する。累積尤度出力単位時間決定部108はこのフレーム信頼度判定部109の出力に基づいて累積尤度出力単位時間を決定するように構成している。また、最終的に結果を出力する音種別区間決定部105においても、この信頼度を音種別と区間とともに出力する。
このような構成にすることによって、フレーム信頼度が低い区間情報も一緒に出力するようにしてもよい。このような構成にすることで、たとえば同一音種が連続している中でも、信頼度の遷移過程などを調べることによって突発的な音の発生を検知することが可能となる。
図21は、音特徴量にもとづき音特徴量の信頼度を算出するフローチャートである。図21において、図5と同じ構成要素については同じ符号を用い、説明を省略する。
フレーム信頼度判定部107は、音特徴量のパワーが所定の信号パワー以下かどうか判定する(ステップS1041)。音特徴量のパワーが所定の信号パワー以下である場合には(ステップS1041でY)、音特徴量によるフレーム信頼度を、信頼度なしとして0にセットする(ステップS1041でY)。それ以外の場合には(ステップS1041でN)、フレーム信頼度判定部107は、フレーム信頼度を1にセットする(ステップS1011)。
このような構成にすることによって、音種別の判定以前に音入力の段階での信頼度をもって、音の種別の判定が行うことができるようになる。
なお、図20では、出力する信頼度情報を音特徴量に基づく値として説明を行ったが、実施の形態1や実施の形態2で述べたように、フレーム尤度に基づく信頼度、累積尤度に基づく信頼度、モデルごとの累積尤度に基づく信頼度のいずれを用いてもよい。
本発明にかかる音識別装置は、信頼度に基づき尤度から変換された頻度情報を用いて音の種別を判定する機能を有する。そこで、識別対象音として、特定のカテゴリのシーンを特徴付ける音を用いて学習しておくことにより、実環境下で収録した、オーディオやビデオなどの中から、特定のカテゴリの音の区間を抽出したり、歓声などを抽出識別対象とすることによって、コンテンツシーン中の観客の興奮シーンのみを連続して抽出したりすることが可能である。また、これら検出した音種別や区間情報をタグとして用い、連動する他の情報を記録し、AV(Audio Visual)コンテンツのタグ検索装置等に利用することができる。
さらに非同期に様々な音が発生している録音ソースから、音声区間を検出し、その区間のみを再生する音編集装置等として有用である。
また、信頼度が変化した区間を出力することによって、同一音種が検出されていたとしても音の変化区間たとえば短時間の突発音区間などをも抽出できる。
また、音識別結果として、音種別結果とその区間だけでなくフレーム尤度等の信頼度を出力して利用するようにしても良い。たとえば、音声の編集の際に信頼度が低い箇所検出した場合にビープ音等を嗚らして検索編集の手がかりとするようにしてもよい。このようにすれば、ドアの音やピストルの音など短時間音であるためにモデル化が困難である音を探索する場合に検索操作の効率化が期待される。
また、出力された信頼度や累積尤度や頻度情報の入れ替わりが発生している区間を図示化してユーザ等に提示しても良い。これにより信頼度が小さい区間を容易にユーザが見出すことができ、編集操作などの効率化も期待できる。
本発明における音識別装置を録音機器などに装備することによって、必要な音を選択して録音することにより、録音容量を圧縮することができる録音装置等にも適用可能である。
本発明は入力音を識別し、入力音の種別と各種別の区間とを出力する音識別装置に関する。
従来、音識別装置は、特定の音の音響的な特徴を抽出することにより、発生音源や機器に関する情報の抽出法として広く利用されている。たとえば、車外の救急車やサイレンの音を検出し車内に通知させるためや、工場で生産される製品のテスト時に製品動作音を分析し異常音を検出することによって、不良機器を発見するためなどに用いられている。一方、識別対象音を特定の音に限定せずに、様々な音が混在したり、入れ替わり発生したりする混合環境音から、発生した音の種類やカテゴリを識別する技術も近年求められるようになっている。
発生した音の種類やカテゴリを識別する技術として特許文献1がある。特許文献1に記載の情報検出装置は、入力された音データを所定の時間単位毎にブロックに分け、ブロック毎に音声「S」と音楽「M」とに分類する。図1は、音データを時間軸上で分類された結果を模式的に示した図である。続いて、情報検出装置は、所定の時間単位Lenにおける分類された結果を時刻t毎に平均化し、音種別が「S」または「M」である確率を表す識別頻度Ps(t)またはPm(t)を算出する。図1では、時刻t0における所定単位時間Lenを模式的に示している。例えば、Ps(t0)を算出する場合は、所定時間単位Lenに存在する音種別「S」の数の和を所定時間単位Lenで割って識別頻度Ps(t0)を算出する。続いて、予め決めた閾値P0とPs(t)または閾値P0とPm(t)とを比較し、閾値P0を越えるか否かで音声「S」または音楽「M」の区間を検出する。
特開2004−271736号公報(段落番号0025−0035)
しかしながら、特許文献1では、それぞれの時刻tにおける識別頻度Ps(t)等を算出する場合に、同一の所定時間単位Len、すなわち固定値の所定時間単位Lenを使用しているため、次のような課題を有している。
一つ目は、突発音が頻繁に発生した場合に区間検出が不正確になるという課題である。突発音が頻繁に発生した場合、各ブロックの音種別の判断が不正確になり、実際の音種別と各ブロックで判断される音種別とが間違うことが頻繁に起こる。このような間違いが頻繁に発生すると、所定時間単位Lenにおける識別頻度Ps等が不正確になるため、最終的な音声または音楽区間の検出が不正確になる。
二つ目は、識別したい音(ターゲット音)と背景音との関係によってターゲット音の認識率が所定時間単位Lenの長さに依存するという課題である。すなわち、固定値である所定時間単位Lenを用いてターゲット音の識別を行った場合には、背景音によってターゲット音の認識率が低下するという課題がある。なお、この課題については後述する。
本発明は、上述の課題を解決するためになされたものであり、突発音が発生しても、さらには背景音とターゲット音との組み合わせが変動しても識別率の低下がおこりにくい音識別装置を提供することを目的とする。
本発明に係る音識別装置は、入力音信号の種別を識別する音識別装置であって、入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するフレーム音特徴量抽出部と、各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するフレーム尤度算出部と、前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定する信頼度判定部と、前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定する累積尤度出力単位時間決定部と、前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出する累積尤度算出部と、前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定する音種別候補判定部と、前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出する音種別頻度算出部と、前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する音種別区間決定部とを備えることを特徴とする。
例えば、前記信頼度判定部は、前記フレーム尤度算出部で算出された各フレームの音特徴量の各音モデルに対するフレーム尤度に基づいて、前記所定の信頼度を判定する。
この構成によると、所定の信頼度、例えばフレーム尤度に基づいたフレームの信頼度に基づいて累積出力単位時間を決定している。このため、信頼度が高い場合には、累積尤度出力単位時間を短くし、信頼度が低い場合には累積尤度出力単位時間を長くすることにより、音種別を判別するためのフレーム数を可変にすることができる。このため、信頼度が低い突発的な異常音などの短時間の影響を低減することができる。このように、信頼度に基づいて、累積尤度出力単位時間を変化させているため、背景音と識別対象音との組み合わせが変動しても識別率の低下がおこりにくい、音識別装置を提供することができる。
好ましくは、前記信頼度が所定の閾値よりも小さいフレームに対しては前記フレーム尤度を累積しない。
この構成によると、信頼度が低いフレームを無視する。このため、音の種別を精度良く識別することができる。
なお、前記信頼度判定部は、前記累積尤度算出部で算出された前記累積尤度に基づいて、前記信頼度を判定してもよい。
また、前記信頼度判定部は、前記累積尤度算出部で算出された前記音モデルごとの累積尤度に基づいて、前記信頼度を判定してもよい。
さらに、前記信頼度判定部は、前記フレーム音特徴量抽出部で抽出される音特徴量に基づいて、前記信頼度を判定してもよい。
なお、本発明は、このような特徴的な手段を備える音識別装置として実現することができるだけでなく、音識別装置に含まれる特徴的な手段をステップとする音識別方法として実現したり、音識別方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音識別装置によれば、フレーム等の信頼度に基づいて、累積尤度出力単位時間を可変としている。このため、突発音が発生しても、さらには背景音とターゲット音の組み合わせが変動しても識別率の低下がおこりにくい音識別装置を提供することができる。
以下本発明の実施の形態について、図面を参照しながら説明する。
まず、本発明の実施の形態について説明する前に、本願発明者らが行なった実験より得られた知見について説明する。特許文献1に記載された手法のように、最尤モデルの頻度情報を用いて、ターゲット音と背景音との組み合わせを変えた混合音に対して音識別実験を行なった。統計的学習モデル(以下、適宜「モデル」という。)の学習には、背景音に対してターゲット音を15dBとして合成した音を用いた。また、音識別実験には、背景音に対してターゲット音を5dBとした合成音を用いた。
図2は、この音識別実験の結果を示す図である。図2は、識別頻度算出のための識別単位時間Tを100フレームに固定し、累積尤度算出のための累積尤度出力単位時間Tkを1、10、100フレームと変化させた場合における識別率を百分率で表している。すなわち、累積尤度出力単位時間Tk=100および識別単位時間T=100の場合には、ひとつの単位時間でひとつの累積尤度に基づいてひとつの頻度情報を出力していることになる。このため、累積尤度のみを用いた手法と同等な処理になる。
ここで、結果を詳細に見ていく。環境音N1からN17を背景音とする時、識別対象音が音声M001や音楽M4の場合には、Tk=1とするときが最良の識別結果となっていることがわかる。つまり、Tk=100とした累積尤度による手法に対しては効果が見られないことが分かる。一方で、同じ環境音(N13を除く)が背景音で、識別対象音が環境音N13の場合には、Tk=100の場合が最良という結果になっている。このように、背景音の種類によって最適なTkの値が異なるという傾向は、背景音が音楽または音声の場合にも見て取れる。
すなわち、背景音とターゲット音との組み合わせにより、識別率が最良となるときの累積尤度出力単位時間Tkの値が変動することがわかる。逆に、累積尤度出力単位時間Tkの値を特許文献1のように固定値にすると、識別率が低下する場合も見受けられる。
本発明は、この知見に基づいてなされたものである。
本発明では、複数フレームの累積尤度結果に基づいた頻度情報を用いて音識別を行うにあたり、予め学習しておいた識別対象音のモデルを用いる。識別対象音としては、音声、音楽を想定し、環境音として駅、自動車走行音、踏切等の生活騒音を想定する。それぞれの音を、あらかじめ特徴量に基づいてモデル化しておくものとする。
(実施の形態1)
図3は、本発明の実施の形態1における音識別装置の構成図である。
音識別装置は、フレーム音特徴量抽出部101と、フレーム尤度算出部102と、累積尤度算出部103と、音種別候補判定部104と、音種別区間決定部105と、音種別頻度算出部106と、フレーム信頼度判定部107と、累積尤度出力単位時間決定部108とを備えている。
フレーム音特徴量抽出部101は、入力音をたとえば10msec長のフレームごとに、Mel-Frequency Cepstrum Coefficients(MFCC)等の音特徴量に変換する処理部である。ここで、音特徴量の算出単位となるフレーム時間長は10msecとして説明を行ったが、識別対象となるターゲット音の特徴に応じて、フレーム時間長を5msec〜250msecとして算出するようにしても良い。フレーム時間長を5msecとすると、極短時間の音の周波数特徴やその変化をも捕らえることができるので、例えばビート音や突発音などの音の早い変化を捉えて識別するために用いると良い。一方、フレーム時間長を250msecとすると、準定常的な連続音などの周波数特徴を良く捕らえることができるので、例えばモータ音などの変動が遅いあるいはあまり変動が少ない音の周波数特徴を捉えることができるので、このような音を識別するために用いると良い。
フレーム尤度算出部102は、モデルとフレーム音特徴量抽出部101で抽出された音特徴量との間のフレームごとの尤度であるフレーム尤度を算出する処理部である。
累積尤度算出部103は、所定数のフレーム尤度を累積した累積尤度を算出する処理部である。
音種別候補判定部104は、累積尤度にもとづいて音種別の候補を判定する処理部である。音種別頻度算出部106は、音種別候補毎に識別単位時間Tにおける頻度を算出する処理部である。音種別区間決定部105は、音種別候補ごとの頻度情報に基づいて、識別単位時間Tにおける音識別とその区間とを決定する処理部である。
フレーム信頼度判定部107は、フレーム尤度算出部102で算出されたフレーム尤度を検証することにより、フレーム尤度にもとづくフレーム信頼度を出力する。累積尤度出力単位時間決定部108では、フレーム信頼度判定部107より出力されるフレーム尤度に基づくフレーム信頼度に基づいて、累積尤度を頻度情報に変換する単位時間である累積尤度出力単位時間Tkを決定し、出力する。したがって、累積尤度算出部103は、累積尤度出力単位時間決定部108の出力にもとづいて、信頼度が十分に高いと判断される場合にフレーム尤度を累積した累積尤度を算出するように構成されている。
より具体的には、フレーム尤度算出部102は、(式1)に基づいて、たとえば「S.Young, D.Kershaw, J.Odell, D.Ollason, V.Valtchev, P.Woodland,"The HTK Book (for HTK Version 2.2), 7.1 The HMM Parameter".(1999-1)」に示される、Gaussian Mixture Model(以降「GMM」と記す)であらかじめ学習しておいた識別対象音特徴モデルMiと、入力音特徴量Xとの間でフレーム尤度Pを算出する。
また、累積尤度算出部103は、(式2)に示されるように、各学習モデルMiに対する尤度P(X(t)|Mi)の累積値として、所定の単位時間における累積尤度Liを算出し、最大の累積尤度を示すモデルIを選択して、この単位区間における尤もらしい識別音種類として出力する。
さらに、音種別候補判定部104は、(式3)の第二式に示されるように、累積尤度出力単位時間Tkごとに、累積尤度算出部103から出力される各学習モデルiに対する累積尤度が最大となるモデルを、音種別候補とする。音種別頻度算出部106および音種別区間決定部105は、(式3)の第一式に示されるように、頻度情報をもとに識別単位時間Tにおける最大頻度をもつモデルを出力することにより、音識別結果を出力する。
次に、本発明の実施の形態1を構成する各ブロックの具体的な手続きについてフローチャートを用いて説明する。
図4は、累積尤度出力単位時間Tkごとに累積尤度を頻度情報に変換し、識別単位時間Tごとに音識別結果を決定する手法の手順を示すフローチャートである。
フレーム尤度算出部102は、フレームtにおける入力音特徴量X(t)に対して、識別対象音の音特徴モデルMiのフレーム尤度Pi(t)をそれぞれ求める(ステップS1001)。累積尤度算出部103は、ステップS1001から得られた入力特徴量X(t)に対する各モデルのフレーム尤度を累積尤度出力単位時間Tkに渡って累積することによって各モデルの累積尤度を算出し(ステップS1007)、音種別候補判定部104は、尤度最大となるモデルをその時刻における音種別候補として出力する(ステップS1008)。音種別頻度算出部106は、識別単位時間Tの区間にわたり、ステップS1008で算出した音種別候補の頻度情報を算出する(ステップS1009)。最後に、音種別区間決定部105は、得られた頻度情報より、頻度が最大となる音種別候補を選択して、この識別単位時間Tでの識別結果として出力する(ステップS1006)。
この手法は、ステップS1007における累積尤度出力単位時間Tkを、識別単位時間Tと同じ値に設定すると、識別単位時間あたり最大頻度をひとつ出力する累積尤度の手法として捉えることもできる。また、累積尤度出力単位時間Tkを1フレームと考えると、フレーム尤度を基準に最尤モデルを選択する手法と捉えることもできる。
図5は、フレーム信頼度判定部107の動作例を示すフローチャートである。フレーム信頼度判定部107は、フレーム尤度に基づいて、フレーム信頼度を算出する処理を行う。
フレーム信頼度判定部107は、予め、フレーム尤度にもとづくフレーム信頼度を最大値(図中では1)に初期化する(ステップS1011)。フレーム信頼度判定部107は、ステップS1012,ステップS1014およびステップS1015の3つの条件式のいずれかを満足する場合には、異常値つまり信頼度を最低値(図中では0)にセットすることにより信頼度判定を行う(ステップS1013)。
フレーム信頼度判定部107は、ステップS1001で算出した入力音特徴量X(t)の各モデルMiに対するフレーム尤度Pi(t)が異常値閾値TH_over_Pを超えるかどうかまたは異常値閾値TH_under_P未満かどうかを判断する(ステップS1012)。各モデルMiに対するフレーム尤度Pi(t)が異常値閾値TH_over_Pを超える場合または異常値閾値TH_under_P未満の場合には、信頼度がまったく無いものと考えられる。この場合には、入力音特徴量が想定外の範囲であるか学習に失敗したモデルを用いている場合が考えられる。
また、フレーム信頼度判定部107は、フレーム尤度Pi(t)と前フレーム尤度Pi(t−1)との間の変動が小さいかどうかを判定する(ステップS1014)。実環境の音は常に変動しているものであり、音入力が正常に行われていれば、尤度にも音の変動に呼応した変動が認められるものである。したがって、フレームが変わっても尤度の変動が認められないほど小さい場合には、入力音そのものまたは音特徴量の入力が途絶えているものと考えられる。
さらに、フレーム信頼度判定部107は、算出されたフレーム尤度Pi(t)の中で、その最大となるモデルに対するフレーム尤度値と最小となるモデル尤度値の差が閾値より小さいかどうかを判定する(ステップS1015)。これは、モデルに対するフレーム尤度の最大値と最小値との差が閾値以上ある場合には、入力音特徴量と近い優位なモデルが存在し、この差が極端に小さい場合には、いずれのモデルも優位ではないということを示すと考えられる。そこで、これを信頼度として利用するものである。そこで、フレーム尤度最大値と最小値との差が閾値以下である場合には(ステップS1015でY)、フレーム信頼度判定部107は、異常値に該当するフレームとして、該当フレーム信頼度を0にセットする(ステップS1013)。一方、比較結果が閾値以上である場合には(ステップS1015でN)、優位のモデルが存在するものとして、フレーム信頼度に1を与えることができる。
このようにフレーム尤度に基づきフレーム信頼度を算出し、フレーム信頼度が高いフレームに関する情報を用いて、累積尤度出力単位時間Tkを決定し、頻度情報を算出することができる。
図6は、累積尤度出力単位時間決定部108の動作例を示す累積尤度出力単位時間決定手法のフローチャートである。累積尤度出力単位時間決定部108は、現在の累積尤度出力単位時間Tkで決定される区間において、フレーム尤度によるフレーム信頼度R(t)の出現傾向を調べるためにフレーム信頼度の頻度情報を算出する(ステップS1021)。分析した出現傾向から、入力音特徴量等が異常であることを示すように、フレーム信頼度が0である、もしくはフレーム信頼度R(t)が0に近い値が頻発している場合には(ステップS1022でY)、累積尤度出力単位時間決定部108は、累積尤度出力単位時間Tkを増加させる(ステップS1023)。
フレーム信頼度R(t)が1に近い値が頻発している場合には(ステップS1024でY)、累積尤度出力単位時間決定部108は、累積尤度出力単位時間Tkを減少させる(ステップS1025)。このようにすることによって、フレーム信頼度R(t)が低い場合には、フレーム数を長くして累積尤度を求め、フレーム信頼度R(t)が高い時には、フレーム数を短くして累積尤度を求めて、その結果に応じた頻度情報を得ることができるため、従来の方法に比較して、相対的に短い識別単位時間で同じ精度の識別結果が自動的に得られるようになる。
図7は、累積尤度算出部103の動作例を示す累積尤度算出手法のフローチャートである。図7において、図4と同じ構成要素については同じ符号を用い、説明を省略する。累積尤度算出部103は、モデルごとの累積尤度Li(t)を初期化する(ステップS1031)。小規模素片接続部103は、ステップS1032からステップS1034で示されるループにおいて、累積尤度を算出する。このとき、小規模素片接続部103は、フレーム尤度に基づくフレーム信頼度R(t)が異常を示す0かどうか判定を行い(ステップS1033)、0で無い場合にのみ(ステップS1033でN)、ステップS1007で示されるように、モデルごとの累積尤度を算出する。このように、累積尤度算出部103は、フレーム信頼度を考慮して累積尤度を算出することにより、信頼度がない音情報を含まずに累積尤度を算出することができる。このため、識別率を上げることができることが期待できる。
音種別頻度算出部106においては、図7のように出力された頻度情報を、所定の識別単位時間Tの間累積し、音種区間決定部105においては、(式3)に従って、識別単位区間における頻度が最大となるモデルを選択し識別単位区間を、決定する。
図8は、図3に示した音識別装置を用いて出力される頻度情報の算出法を示す概念図である。この図においては、音種として音楽が入力されている場合の具体的な識別結果例を挙げて、本発明の効果について説明する。識別単位時間Tの中で、入力音特徴量1フレームごとにモデルに対する尤度をそれぞれ求め、各モデルに対する尤度群より、フレーム信頼度をフレームごとに算出する。図中の横軸は、時間軸を示しており、ひとつの区切りを1フレームとしている。このとき、算出された尤度信頼度は、最大値1または最小値0のいずれかの値が与えられるものとし、最大値1のとき、尤度の信頼度があり、最小値0のとき、尤度の信頼度がない異常値とみなすことができる指標とする。
従来法つまり累積尤度出力単位時間Tkが固定の条件では、1フレームごとに得られた尤度のうち最大尤度となるモデルの頻度情報を算出する。従来法は、信頼度を用いない手法であるため、出力される最尤モデルの頻度情報がそのまま反映されることになる。音識別結果として出力される情報は、区間単位の頻度情報で決定される。この図の例では、識別単位時間Tの中で、音種M(音楽)が2フレーム、音種S(音声)が4フレームという頻度結果であることから、この識別単位時間Tにおける最大頻度のモデルは音種S(音声)となり誤識別の結果が得られることとなる。
一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、図中段のように、1フレームごとに信頼度が、1か0かの値で示されており、この信頼度を用いて累積尤度を算出するための単位時間が変化することにより、頻度情報が出力される。たとえば、信頼度なしと判断されたフレームの尤度は、直接頻度情報に変換されず、信頼度ありと判断されたフレームに達するまで、累積尤度として算出される。この例では、信頼度が0となっている区間が存在する結果、識別単位時間Tにおける最多頻度情報は、音種M(音楽)が頻度情報として出力される。識別単位時間Tにおける最大頻度のモデルは音種M(音楽)となることから、正しい種別として識別ができていることがわかる。したがって、本発明の効果として、信頼度がないと判断されるフレーム尤度を直接用いないことで、不安定な頻度情報を吸収することにより識別結果を高めることが期待できる。
かかる構成によれば、累積尤度情報を頻度情報に変換する際に、尤度信頼度に基づいた頻度情報に変換することにより、突発的な異常音などが頻繁に発生して音の種別の入れ替わりが頻繁する場合であっても、累積尤度算出単位時間の長さを適切に設定できる(信頼度が所定値よりも高い場合は累積尤度算出単位時間を短く、信頼度が所定値よりも低い場合は累積尤度算出単位時間を長く設定できる)。このため、音の識別率の低下を抑制することができる。さらに、背景音やターゲット音が変化した場合でも、より適切な累積尤度算出単位時間に基づいて音の識別ができるため、音の識別率の低下を抑制することができる。
つぎに、本発明の実施の形態1における音識別装置の第二の構成図である図9について説明する。図9において、図3と同じ構成要素については同じ符号を用い、説明を省略する。
図9において、図3との違いとしては、音種別頻度算出部106が、音種別候補判定部104から出力される音種別候補情報から音種別頻度情報を算出する際に、フレーム信頼度判定部107から出力されるフレーム信頼度を用いて算出するように構成されている点が異なる。
かかる構成によれば、累積尤度情報から算出された音種別候補を頻度情報に変換する際に、尤度信頼度に基づいた頻度情報に変換することにより、突発的な異常音などの短時間の影響を低減することができるため、背景音やターゲット音が変化してもより適切な累積尤度算出単位時間に基づいて識別率の低下を抑制することができる。
図10は、フレーム尤度によるフレーム信頼度判定手法として、フレーム信頼度判定部107が実行する第二の手法例を示すフローチャートである。図10において、図5と同じ処理については同じ符号を用い、説明を省略する。図5の手法では、ステップS1015において、フレーム信頼度判定部107が、入力特徴量に対する各モデルのフレーム尤度を算出し、その最大となるモデルのフレーム尤度値と最小となるモデルのフレーム尤度値の差が閾値より小さいかどうかを用いて、信頼度の値を0か1かに設定していた。
ここでは、フレーム信頼度判定部107が信頼度を0か1かのいずれかに設定するのではなく、フレーム信頼度判定部107が0から1の中間値をとるように信頼度を与える。具体的には、ステップS1016のように、フレーム信頼度判定部107は、信頼度のさらなる基準として、最大値をとるモデルのフレーム尤度がどの程度優位性のあるのかを判断する尺度とみなす基準を加えることもできる。そこで、フレーム信頼度判定部107は、フレーム尤度の最大値と最小値の比を信頼度として与えるようにしてもよい。
図11は、累積尤度算出部103の、図7とは別の動作例を示す累積尤度算出方法のフローチャートである。図11において、図7と同じ処理については同じ符号を用い、説明を省略する。この動作例では、累積尤度算出部103は、出力する頻度情報の個数を初期化しておき(ステップS1035)、累積尤度算出の際に、フレーム信頼度が1に近いかどうかを判定する(ステップS1036)。フレーム信頼度が十分に高いと認められる場合には(ステップS1036でY)、累積尤度算出部103は、該当フレームの頻度情報を直接出力するために、最尤モデル識別子の保存を行っておく(ステップS1037)。そして、図12のステップS1038で表される音種別候補判定部104が実行する処理において、単位識別区間Tkにおける累積尤度が最大のモデルを加えて、ステップS1037において保存しておいた複数の最大モデルによる音種別候補を出力する。図4のステップS1008では一つの音種別候補を用いるのに対して、音種別候補判定部104は、このように信頼度が高いフレームがk個存在する場合にはk+1個の音種別候補を出力することになる。このため、結果として、信頼度の高いフレームの情報に重み付けがなされた、頻度情報つきの音種別候補が算出されることとなる。
音種別頻度算出部106は、図11および図12の処理に従い出力された音種別候補を、識別単位時間Tの間累積することによって頻度情報を求める。また、音種区間決定部105は、(式3)に従って、識別単位区間における頻度が最大となるモデルを選択し、識別単位区間を決定する。
なお、音種別区間決定部105は、フレーム信頼度が高く頻度情報が集中している区間に限定して最大の頻度情報を有するモデルを選択して、音の種別とその区間を決定するようにしてもよい。このようにフレーム信頼度の低い区間での情報を用いないことによって、識別の精度向上が期待できる。
図13は、図3または図9に示した音識別装置により出力される頻度情報の算出法を示す概念図である。識別単位時間Tの中で、入力音特徴量1フレームごとにモデルに対する尤度をそれぞれ求め、各モデルに対する尤度群より、フレーム信頼度をフレームごとに算出する。図中の横軸は、時間軸を示しており、ひとつの区切りが1フレームとしている。このとき、算出された尤度信頼度は、最大値1および最小値0となるように正規化されているものとし、最大値1に近いほど尤度の信頼度があり(図中では一フレームでも識別十分な状態A)、最小値0に近いほど(図中では、該フレームの信頼度がまったくない状態C)、(その中間が状態B)尤度の信頼度が低いとみなすことができる指標とする。この例では、図11に示したように、算出された尤度信頼度を2つの閾値を用いて検証することにより、フレーム累積度を算出している。一つ目の閾値は、出力された尤度の1フレームが十分に大きく、信頼に足るものかどうか判断するものである。図の例では、信頼度が0.50以上の場合に、1フレームで頻度情報に変換可能とみなしている。2つ目の閾値は、出力された尤度信頼度が低すぎるために頻度情報には変換しないかどうかを判断するものである。図の例では、信頼度が0.04未満の場合に、該当する。この2つの閾値の間に尤度信頼度がある場合には、複数フレームでの累積尤度をもとに、頻度情報に変換するようにしている。
ここで具体的な識別結果例を挙げて、本発明の効果について説明する。従来法つまり累積尤度出力単位時間Tkが固定の条件では、1フレームごとに得られた尤度から最大累積尤度となるモデルの頻度情報を算出する。そのため、図8に示した結果と同様に、識別単位時間Tの中で、音種M(音楽)が2フレーム、音種S(音声)が4フレームという結果となり、この識別単位時間Tにおける最大頻度のモデルは音種S(音声)となってしまうため誤識別となる。
一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、1フレームでの頻度情報への変換に足る尤度のフレームからは、3段階の信頼度をもとに、累積尤度を可変長にしながら頻度情報を求めていくことができる。そのため、不安定な区間の頻度情報を直接用いることなく識別結果を得ることができるようになる。また、図中の例の識別対象区間Tの中の最後のフレームのように、信頼度が低く、頻度情報が結果的に用いられていないようなフレームに関しては、累積尤度の計算上無視することもできる。このようにすることで、信頼度の多段階化により、さらに精度よく識別を行うことができるものと期待できる。
なお、上記の例では識別単位時間Tにつき、識別判定結果をひとつ出力する例として説明したが、信頼度の高い区間あるいは低い区間を基点とした識別判定結果を複数出力するようにしてもよい。このような構成により、識別単位時間T当たりの識別結果が固定タイミングで出力されるのではなく、信頼度の高い区間の情報が可変化タイミングで適宜出力することができるため、たとえ識別単位時間Tを長めに設定しておいても信頼度により識別結果が確からしい区間では、すばやく結果を得られるようになる。識別単位時間Tを短めに設定しておいた場合にも、信頼度の高い区間の結果を早く得られることが可能である。
なおフレーム音特徴量抽出部101で使用する音特徴量学習モデルについては、MFCCを、モデルについては、GMMを用いるものと想定した説明を行ったが、本発明ではこれらに限定されるものではなく、特徴量として周波数特徴量を現すDFT(Discrete Fourier Transform)やDCT(Discrete Cosine Transform)やMDCT(Modified Discrete Cosine Transform)などを用いてもかまわない。また、モデル学習法としては、状態遷移を考慮してHMM(Hidden Markov Model)を用いてもよい。
また、PCA(主成分分析)などの統計的手法を用いて音特徴量の独立性などの成分分解あるいは成分抽出したうえで、モデル学習する手法を用いてもよい。
(実施の形態2)
図14は、本発明の実施の形態2の音識別装置の構成図である。図14において、図3と同じ構成要素については同じ符号を用い、説明を省略する。実施の形態1では、フレーム尤度に基づきフレーム単位の音情報信頼度を利用した方法であったが、本実施の形態では、累積尤度を用いて、フレーム信頼度を算出し、これを利用して、頻度情報を算出する。
図14において、フレーム信頼度判定部110は、累積尤度算出部103で算出された現時点のモデルごとの累積尤度を算出し、累積尤度出力単位時間決定部108において累積尤度出力単位時間を決定するように構成している。
図15は、フレーム信頼度判定部110により、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図15において、図5と同じ構成要素については同じ符号を用い、説明を省略する。フレーム信頼度判定部110は、ステップS1051からステップS1054において、単位時間における最尤累積尤度と僅差であるモデルの個数をカウントする。フレーム信頼度判定部110は、累積尤度算出部103において算出した各モデルの累積尤度に対して、最尤累積尤度との差が所定値以内になるかどうか、各モデルについて判定を行う(ステップS1052)。当該差が所定値内である場合には(ステップS1052でY)、フレーム信頼度判定部110は、候補としてその候補数をカウントし、そのモデル識別子を保存する(ステップS1053)。フレーム信頼度判定部110は、ステップS1055において、フレームごとに上記候補数を出力し、累積尤度モデルの候補数の変動が所定値以上であるか否かを判断する(ステップS1055)。所定値以上の場合には(ステップS1055でY)、フレーム信頼度判定部110は、フレーム信頼度に異常値0をセットし(ステップS1013)、所定値以下である場合には(ステップS1055でN)、フレーム信頼度判定部110は、フレーム信頼度に正常値1をセットする(ステップS1011)。
このような構成にすることによって、上記候補数の変化から、入力音の変動を見出すことが可能であり、識別対象音や背景音から構成される混合音の構成状況が変化していることが推測される。識別対象としている音が発生し続けて、背景音が変動している場合には、背景音の中で識別対象音と近い音が発生消滅を繰り返している場合に有用であると考えられる。
なお、上記のように算出した音種別候補、つまり最尤の累積尤度から所定値以内の識別子の組み合わせが変化したことを検知して、変化点であることあるいは候補数の増減値をフレーム信頼度として用いて頻度情報に変換してもよい。
図16は、フレーム信頼度判定部110における、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図16において、図5および図15と同じ構成要素については同じ符号を用い、説明を省略する。本手法では、図15とは反対に、最小の累積尤度を基準として、累積尤度が僅差となるモデルの候補数を用いて、信頼度を獲得する。フレーム信頼度判定部110は、ステップS1056からステップS1059までのループにおいて、単位時間における最小累積尤度と僅差であるモデルの数をカウントする。フレーム信頼度判定部110は、累積尤度算出部103において算出された各モデルの累積尤度に対して、最小累積尤度との差が所定値以下になるかどうか、各モデルについて判定を行う(ステップS1057)。所定値以下である場合には(ステップS1057でY)、フレーム信頼度判定部110は、候補数をカウントし、そのモデル識別子を保存する(ステップS1058)。フレーム信頼度判定部110は、上記ステップにおいて算出した、最小累積モデルの候補数の変動が所定値以上であるか否かを判断し(ステップS1060)、当該変動が所定値以上である場合には(ステップS1060でY)、フレーム信頼度判定部110は、フレーム信頼度を0にセットし信頼度なしと判断し(ステップS1013)、当該変動が所定値以下である場合には(ステップS1060でN)、フレーム信頼度を1にセットして信頼度ありと判断する(ステップS1011)。
なお、上記のように算出した音種別候補、つまり最低の累積尤度からの識別子の組み合わせが変化したことを検知して、変化点であることあるいは候補数の増減値をフレーム信頼度として用いて頻度情報に変換してもよい。
また、上記図15および図16では、それぞれ最大尤度および最小尤度となるモデルから、尤度が所定値の範囲内にあるモデルの個数を用いてフレーム信頼度の算出を説明したが、最大尤度から尤度が所定値の範囲内にあるモデルの個数と最小尤度から尤度が所定値の範囲内にあるモデルの個数との双方の情報を用いて、フレーム信頼度を算出し、頻度情報に変換するようにしてもよい。
なお、この最尤の累積尤度から尤度が所定値の範囲内にあるモデルとは、累積尤度を算出した区間の音種別としての確からしさが非常に高くなるモデルである。そこで、ステップS1053においてモデルごとに尤度が所定値内にあると判定されたモデルのみを信頼度があるものとして、モデルごとに信頼度を作成して、頻度情報への変換に利用してもよい。また、この最低の累積尤度から所定値内にあるモデルとは、累積尤度を算出した区間の音種別としての確からしさが非常に低くなるモデルである。そこで、ステップS1058においてモデルごとに所定値内にあると判定されたモデルのみを信頼度がないものとして、モデルごとに信頼度を作成して頻度情報への変換に利用してもよい。
なお、上記の構成では、累積尤度にもとづくフレーム信頼度を用いて頻度情報に変換する方法を説明したが、フレーム尤度にもとづくフレーム信頼度と、累積尤度にもとづくフレーム信頼度とを比較して、双方の一致区間を選択し、累積尤度にもとづくフレーム信頼度を重み付けするようにしてもよい。
このような構成により、累積尤度によるフレーム信頼度を用いながら、フレーム単位の短い応答を保つことができる。このため、累積尤度によるフレーム信頼度が連続して同じ音種別候補が出力されていても、フレーム尤度によるフレーム信頼度の遷移が行われているような区間を検出することができる。したがって、突発音などによる短時間の尤度劣化の検出も可能となる。
また、実施の形態1または実施の形態2では、尤度または累積尤度をもとに算出するフレーム信頼度を用いて頻度情報に変換する方法を説明したが、さらに音モデルごとに信頼度を設ける音種別候補信頼度を用いて頻度情報あるいは識別結果を出力するようにしてもよい。
図17は、本発明の実施の形態2の音識別装置の第二の構成図である。図17において、図3および図14と同じ構成要素については同じ符号を用い、説明を省略する。図14に示す実施の形態では、累積尤度によるフレーム信頼度を算出し頻度情報を出力したが、本構成では、累積尤度による音種別候補信頼度を算出しこれを利用して、頻度情報を算出する。
図17において、音種別候補信頼度判定部111は、累積尤度算出部103で算出された現時点のモデルごとの累積尤度を算出し、累積尤度出力単位時間決定部108において累積尤度出力単位時間を決定するように構成している。
図18は、最尤の音種別から所定値以内の累積尤度を持つ音種別候補を信頼度があるという基準にもとづいて算出される、音種別候補信頼度を用いた累積尤度計算処理のフローチャートである。図11と同じ構成要素については同じ符号を用い、説明を省略する。累積尤度算出部103は、識別単位時間内、最尤の累積尤度と累積尤度が所定値以内のモデルMiがある場合には(ステップS1062でY)、そのモデルを音種別候補として保存しておき(ステップS1063)、図12に示した流れで、音種別候補判定部104が音種別候補を出力する。
このような構成にすることによって、音種別候補信頼度を用いて、モデルごとに信頼度を設けることができるため、モデルに対して重み付けをした頻度情報を出力することが可能となる。また、所定数連続してあるいは一定の時間に対しての出力頻度が所定閾値よりも高い場合には、識別単位時間Tに達しなくても、音種別をして決定し区間情報とともに出力することで、より音識別区間の遅れなく出力することができる。
続いて、識別単位時間Tの区間から得られた頻度情報において、音種別の頻度差がほとんどない、つまり優位となる音種別が存在しないために陥る誤識別を抑制する音種別結果の出力方法について説明する。
上述したように、入力音として音楽(M)と音声(S)とが交互に入れ替わり、かつ、フレーム信頼度が高い場合には、識別単位時間Tに至らなくとも音種別候補が出力される。しかし、音楽(M)に近い音、背景音または雑音(N)が存在したり、交互に入れ替わる音声(S)または音楽(M)に近いモデルが多数存在し、1つのモデルを特定できない場合には、上記の場合と異なりフレーム信頼度が低下する。さらに、各累積尤度区間Tkが識別単位時間Tの区間に対して無視できない時間長で続くと、識別単位時間Tにおいて得られる頻度数が減少することになる。その結果として、識別単位時間Tにおいて音楽(M)や音声(S)の頻度差が少なくなる場合がある。このような場合には、識別単位時間Tにおける頻度最大モデルとして優位なモデルが存在せず、実際の音種別とは異なった音種別候補を出力するという課題が生じる。
そこで、変形例では、識別単位時間T内の累積尤度出力単位時間Tkにおける音種別毎の出現頻度を利用して、1つの識別単位時間Tから出力される音種別結果を信頼して良いかを判断する機能を図17の音識別頻度算出部106に持たせている。
図19は、音種別区間決定部105において、識別単位時間T内の累積尤度出力単位時間Tkにおける音種別毎の出現頻度を利用して複数の識別単位区間にわたり再計算をした場合(図19(b))と出現頻度を利用しなかった場合(図19(a))との音種別および区間情報出力例を示す。
この図19では、音種別区間決定部105による識別単位区間T0からT5において、各識別単位時間、モデル毎の出現頻度、総有効頻度数、総頻度数、識別単位時間ごとの頻度最大のモデル、最終的に音種別区間決定部106から出力される音種別結果および実際に発生した音の音種別について、列挙している。
まず、識別単位時間は、原則的には所定値T(この例では100フレーム)であるが、音種別頻度算出部106の累積尤度出力時にフレーム信頼度が所定フレーム連続して所定閾値より高い場合には識別単位時間が所定値Tにまで達しなくとも出力されるため、図中識別単位区間T3およびT4では、所定値よりも識別単位時間が短くなっていることを示している。
つぎに、モデル毎の出現頻度を示している。ここで「M」は音楽を示し、「S」は音声、「N」は雑音を示し、「X」は無音を示している。最初の識別時間単位T0における出現頻度を見ると、Mが36、Sが35、Nが5、Xが2である。したがって、この場合、最大の頻度であるモデルは、Mとなる。図19では識別単位区間ごとに出現頻度最大のモデルを下線で示している。ここで、図19中の「総頻度数」とは、各識別単位区間における頻度の合計であり、また「総有効頻度数」とは総頻度数から無音Xの出現頻度を除いた頻度の合計である。図中の識別単位区間T0やT1のように、識別単位区間のフレーム数(それぞれ100と100)よりも総頻度数が小さい区間(それぞれ78と85)では、図8や図13で示したように、累積尤度出力単位時間Tkが長くなったため、不安定な頻度情報が吸収されて頻度数が減少したことを示している。したがって、T0からT5の区間を通じた、識別単位時間ごとの頻度最大のモデルは、横方向を時間方向としてそれぞれ「MSSMSM」と出力されている。
図19の例に対して、音種別区間決定部106において、出現頻度を利用しない場合の音種別と区間情報出力について説明する。この場合には、音種別頻度算出部105からの音種別頻度に対する評価を行わずに、頻度最大のモデルをそのまま音種別として用い、またその連続している部分がある場合には区間を統合することで最終的に音種別と区間情報として出力される(識別単位時間T1とT2の区間が連結されて一つのSの区間となる。)。図19の例において、実際の音種別と比較すると、出現頻度を利用しない場合には、識別時間単位T0において、実際にはSであるにもかかわらず、音種別はMと出力されていることから、識別結果が誤ったまま何も改善されていないことが分かる。
そこで、出現頻度を利用する場合について説明する。図17の音識別頻度算出部106が出力する識別単位時間毎のモデル毎の頻度を利用して、識別単位時間における頻度最大のモデルが信頼できるかを示す頻度信頼度を用いて識別単位時間における頻度最大モデルが何であるか判断する。ここで、頻度信頼度は、識別単位区間内において、異なるモデルの出現頻度差を総有効頻度数(識別単位区間の総頻度数から無音区間Xなどの無効頻度を除いた数)で割った値とする。このとき頻度信頼度の値は、0から1の間の値をとる。例えば、音楽(M)か音声(S)かを判断する場合は、頻度信頼度の値は、MとSとの出現頻度の差を総有効頻度数で割った値となる。この場合には頻度信頼度は、識別単位区間におけてMとSとの差が小さければ0に近い小さい値となり、MとSとのどちらかが多ければ1に近い大きい値となる。MとSとの差が小さい、つまりこの頻度信頼度が0に近い値ということは、識別単位区間においてMとSとのどちらを信用して良いかわからない状態であることを示している。図19(b)では識別単位区間毎に頻度信頼度R(t)を計算した結果を示している。識別単位区間T0およびT1のように、頻度信頼度R(t)が所定値(0.5)を下回ったとき(0.01および0.39)、信頼できないものと判断するものとする。
このような判断基準を用いた具体的な手順について説明する。頻度信頼度R(t)が0.5以上の場合は識別単位区間の頻度最大のモデルをそのまま使用し、頻度信頼度R(t)が0.5よりも小さい場合は複数の識別単位区間においてモデル毎の頻度を再度計算して頻度最大のモデルを決定する。図19では頻度信頼度が低い最初の2つの識別単位区間T0とT1において、それぞれのモデル毎の頻度を足し、2つの区間にわたって再計算された頻度情報に基づいて、新たにその2つの識別単位区間の頻度最大モデルSと決定している。この結果、識別単位区間T0の識別結果は、音種別頻度算出部105から得られた最大頻度の音種別はMからSへと変わり、実際の音結果と一致することが分かる。
このように頻度信頼度が低い部分は、複数の識別単位区間におけるモデル毎の頻度を使用することで、雑音等の影響で識別単位区間の頻度最大モデルの頻度信頼度が低くなったとしても、正確に音種別を出力できる。
(実施の形態3)
図20は、本発明の実施の形態3の音識別装置の構成図である。図20において、図3および図14と同じ構成要素については同じ符号を用い、説明を省略する。本実施の形態では、音特徴量自身の信頼度を用いて、音特徴量自身のモデルごとの信頼度を算出しこれを利用して、頻度情報を算出する。さらに、出力情報として信頼度情報も出力を行う。
図20において、音特徴量によるフレーム信頼度判定部109は、フレーム音特徴量抽出部101で算出された音特徴量より、判定に適しているかどうか音特徴量を検証することにより音特徴量信頼度を出力する。累積尤度出力単位時間決定部108はこのフレーム信頼度判定部109の出力に基づいて累積尤度出力単位時間を決定するように構成している。また、最終的に結果を出力する音種別区間決定部105においても、この信頼度を音種別と区間とともに出力する。
このような構成にすることによって、フレーム信頼度が低い区間情報も一緒に出力するようにしてもよい。このような構成にすることで、たとえば同一音種が連続している中でも、信頼度の遷移過程などを調べることによって突発的な音の発生を検知することが可能となる。
図21は、音特徴量にもとづき音特徴量の信頼度を算出するフローチャートである。図21において、図5と同じ構成要素については同じ符号を用い、説明を省略する。
フレーム信頼度判定部107は、音特徴量のパワーが所定の信号パワー以下かどうか判定する(ステップS1041)。音特徴量のパワーが所定の信号パワー以下である場合には(ステップS1041でY)、音特徴量によるフレーム信頼度を、信頼度なしとして0にセットする(ステップS1041でY)。それ以外の場合には(ステップS1041でN)、フレーム信頼度判定部107は、フレーム信頼度を1にセットする(ステップS1011)。
このような構成にすることによって、音種別の判定以前に音入力の段階での信頼度をもって、音の種別の判定が行うことができるようになる。
なお、図20では、出力する信頼度情報を音特徴量に基づく値として説明を行ったが、実施の形態1や実施の形態2で述べたように、フレーム尤度に基づく信頼度、累積尤度に基づく信頼度、モデルごとの累積尤度に基づく信頼度のいずれを用いてもよい。
本発明にかかる音識別装置は、信頼度に基づき尤度から変換された頻度情報を用いて音の種別を判定する機能を有する。そこで、識別対象音として、特定のカテゴリのシーンを特徴付ける音を用いて学習しておくことにより、実環境下で収録した、オーディオやビデオなどの中から、特定のカテゴリの音の区間を抽出したり、歓声などを抽出識別対象とすることによって、コンテンツシーン中の観客の興奮シーンのみを連続して抽出したりすることが可能である。また、これら検出した音種別や区間情報をタグとして用い、連動する他の情報を記録し、AV(Audio Visual)コンテンツのタグ検索装置等に利用することができる。
さらに非同期に様々な音が発生している録音ソースから、音声区間を検出し、その区間のみを再生する音編集装置等として有用である。
また、信頼度が変化した区間を出力することによって、同一音種が検出されていたとしても音の変化区間たとえば短時間の突発音区間などをも抽出できる。
また、音識別結果として、音種別結果とその区間だけでなくフレーム尤度等の信頼度を出力して利用するようにしても良い。たとえば、音声の編集の際に信頼度が低い箇所検出した場合にビープ音等を鳴らして検索編集の手がかりとするようにしてもよい。このようにすれば、ドアの音やピストルの音など短時間音であるためにモデル化が困難である音を探索する場合に検索操作の効率化が期待される。
また、出力された信頼度や累積尤度や頻度情報の入れ替わりが発生している区間を図示化してユーザ等に提示しても良い。これにより信頼度が小さい区間を容易にユーザが見出すことができ、編集操作などの効率化も期待できる。
本発明における音識別装置を録音機器などに装備することによって、必要な音を選択して録音することにより、録音容量を圧縮することができる録音装置等にも適用可能である。
図1は、特許文献1における識別頻度情報の概念図である。
図2は、本発明における頻度による音識別性能結果表である。
図3は、本発明の実施の形態1における音識別装置の構成図である。
図4は、本発明の実施の形態1における2つの単位時間と頻度とによる音種別判定法フローチャートである。
図5は、本発明の実施の形態1のフレーム信頼度判定部の実行する処理のフローチャートである。
図6は、本発明の実施の形態1の累積尤度出力単位時間決定部の実行する処理のフローチャートである。
図7は、本発明の実施の形態1のフレーム信頼度を用いた累積尤度計算部の実行する処理のフローチャートである。
図8は、本発明の実施の形態1のフレーム信頼度を用いた識別頻度の算出手法を示す概念図である。
図9は、本発明の実施の形態1における音識別装置の第二の構成図である。
図10は、本発明の実施の形態1のフレーム信頼度判定部の実行する処理の第二のフローチャートである。
図11は、本発明の実施の形態1のフレーム信頼度を用いた累積尤度計算部の実行する処理の第二のフローチャートである。
図12は、音種別候補判定部が実行する処理のフローチャートである。
図13は、本発明の実施の形態1のフレーム信頼度を用いた識別頻度の算出手法を示す第二の概念図である。
図14は、本発明の実施の形態2における音識別装置の構成図である。
図15は、本発明の実施の形態2のフレーム信頼度判定部の実行する処理のフローチャートである。
図16は、本発明の実施の形態2のフレーム信頼度判定部の実行する処理の第二のフローチャートである。
図17は、本発明の実施の形態2における音識別装置の第二の構成図である。
図18は、本発明の実施の形態2の音種別候補の信頼度を用いた累積尤度計算処理を示すフローチャートである。
図19は、音種別区間決定部において、識別単位時間T内の累積尤度出力単位時間Tkにおける音種別毎の出現頻度を利用して複数の識別単位区間にわたり再計算をした場合(図19(b))と出現頻度を利用しなかった場合(図19(a))との音種別および区間情報出力例を示す図である。
図20は、本発明の実施の形態3における音識別装置の構成図である。
図21は、本発明の実施の形態3のフレーム信頼度判定部の実行する処理のフローチャートである。
符号の説明
101 フレーム音特徴量抽出部
102 フレーム尤度算出部
103 累積尤度算出部
104 音種別候補判定部
105 音種別区間決定部
106 音種別頻度算出部
107 フレーム信頼度判定部
108 累積尤度出力単位時間決定部
109 フレーム信頼度判定部
110 フレーム信頼度判定部
111 音種別候補信頼度判定部