JPWO2007023660A1

JPWO2007023660A1 - 音識別装置

Info

Publication number: JPWO2007023660A1
Application number: JP2006534532A
Authority: JP
Inventors: 鈴木　哲; 哲鈴木; 中藤　良久; 良久中藤; 芳澤　伸一; 伸一芳澤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-08-24
Filing date: 2006-08-04
Publication date: 2009-03-26
Anticipated expiration: 2026-08-04
Also published as: US7473838B2; WO2007023660A1; JP3913772B2; US20070192099A1

Abstract

識別率の低下がおこりにくい音識別装置は、入力音信号のフレームごとに音特徴量を抽出するフレーム音特徴量抽出部（１０１）と、各フレームの音特徴量の、各音モデルに対するフレーム尤度を算出するフレーム尤度算出部（１０２）と、フレーム尤度に基づいて、信頼度を判定する信頼度判定部（１０７）と、信頼度に基づいて、累積尤度出力単位時間を決定する累積尤度出力単位時間決定部（１０８）と、各音モデルについて、累積尤度出力単位時間に含まれるフレームのフレーム尤度の累積尤度を算出する累積尤度算出部（１０３）と、累積尤度が最尤となる音モデルに対応する音種別を累積尤度出力単位時間ごとに決定する音種別候補判定部（１０４）と、音種別候補の頻度を算出する音種別頻度算出部（１０６）と、音種別候補の頻度より入力音信号の音種別および区間を決定する音種別区間決定部（１０５）とを備える。

Description

本発明は入力音を識別し、入力音の種別と各種別の区間とを出力する音識別装置に関する。

従来、音識別装置は、特定の音の音響的な特徴を抽出することにより、発生音源や機器に関する情報の抽出法として広く利用されている。たとえば、車外の救急車やサイレンの音を検出し車内に通知させるためや、工場で生産される製品のテスト時に製品動作音を分析し異常音を検出することによって、不良機器を発見するためなどに用いられている。一方、識別対象音を特定の音に限定せずに、様々な音が混在したり、入れ替わり発生したりする混合環境音から、発生した音の種類やカテゴリを識別する技術も近年求められるようになっている。

発生した音の種類やカテゴリを識別する技術として特許文献１がある。特許文献１に記載の情報検出装置は、入力された音データを所定の時間単位毎にブロックに分け、ブロック毎に音声「Ｓ」と音楽「Ｍ」とに分類する。図１は、音データを時間軸上で分類された結果を模式的に示した図である。続いて、情報検出装置は、所定の時間単位Ｌｅｎにおける分類された結果を時刻ｔ毎に平均化し、音種別が「Ｓ」または「Ｍ」である確率を表す識別頻度Ｐｓ（ｔ）またはＰｍ（ｔ）を算出する。図１では、時刻ｔ０における所定単位時間Ｌｅｎを模式的に示している。例えば、Ｐｓ（ｔ０）を算出する場合は、所定時間単位Ｌｅｎに存在する音種別「Ｓ」の数の和を所定時間単位Ｌｅｎで割って識別頻度Ｐｓ（ｔ０）を算出する。続いて、予め決めた閾値Ｐ０とＰｓ（ｔ）または閾値Ｐ０とＰｍ（ｔ）とを比較し、閾値Ｐ０を越えるか否かで音声「Ｓ」または音楽「Ｍ」の区間を検出する。
特開２００４−２７１７３６号公報（段落番号００２５−００３５）

しかしながら、特許文献１では、それぞれの時刻ｔにおける識別頻度Ｐｓ（ｔ）等を算出する場合に、同一の所定時間単位Ｌｅｎ、すなわち固定値の所定時間単位Ｌｅｎを使用しているため、次のような課題を有している。

一つ目は、突発音が頻繁に発生した場合に区間検出が不正確になるという課題である。突発音が頻繁に発生した場合、各ブロックの音種別の判断が不正確になり、実際の音種別と各ブロックで判断される音種別とが間違うことが頻繁に起こる。このような間違いが頻繁に発生すると、所定時間単位Ｌｅｎにおける識別頻度Ｐｓ等が不正確になるため、最終的な音声または音楽区間の検出が不正確になる。

二つ目は、識別したい音（ターゲット音）と背景音との関係によってターゲット音の認識率が所定時間単位Ｌｅｎの長さに依存するという課題である。すなわち、固定値である所定時間単位Ｌｅｎを用いてターゲット音の識別を行った場合には、背景音によってターゲット音の認識率が低下するという課題がある。なお、この課題については後述する。

本発明は、上述の課題を解決するためになされたものであり、突発音が発生しても、さらには背景音とターゲット音との組み合わせが変動しても識別率の低下がおこりにくい音識別装置を提供することを目的とする。

本発明に係る音識別装置は、入力音信号の種別を識別する音識別装置であって、入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するフレーム音特徴量抽出部と、各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するフレーム尤度算出部と、前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定する信頼度判定部と、前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定する累積尤度出力単位時間決定部と、前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出する累積尤度算出部と、前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定する音種別候補判定部と、前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出する音種別頻度算出部と、前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する音種別区間決定部とを備えることを特徴とする。

例えば、前記信頼度判定部は、前記フレーム尤度算出部で算出された各フレームの音特徴量の各音モデルに対するフレーム尤度に基づいて、前記所定の信頼度を判定する。

この構成によると、所定の信頼度、例えばフレーム尤度に基づいたフレームの信頼度に基づいて累積出力単位時間を決定している。このため、信頼度が高い場合には、累積尤度出力単位時間を短くし、信頼度が低い場合には累積尤度出力単位時間を長くすることにより、音種別を判別するためのフレーム数を可変にすることができる。このため、信頼度が低い突発的な異常音などの短時間の影響を低減することができる。このように、信頼度に基づいて、累積尤度出力単位時間を変化させているため、背景音と識別対象音との組み合わせが変動しても識別率の低下がおこりにくい、音識別装置を提供することができる。

好ましくは、前記信頼度が所定の閾値よりも小さいフレームに対しては前記フレーム尤度を累積しない。

この構成によると、信頼度が低いフレームを無視する。このため、音の種別を精度良く識別することができる。

なお、前記信頼度判定部は、前記累積尤度算出部で算出された前記累積尤度に基づいて、前記信頼度を判定してもよい。

また、前記信頼度判定部は、前記累積尤度算出部で算出された前記音モデルごとの累積尤度に基づいて、前記信頼度を判定してもよい。

さらに、前記信頼度判定部は、前記フレーム音特徴量抽出部で抽出される音特徴量に基づいて、前記信頼度を判定してもよい。

なお、本発明は、このような特徴的な手段を備える音識別装置として実現することができるだけでなく、音識別装置に含まれる特徴的な手段をステップとする音識別方法として実現したり、音識別方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明の音識別装置によれば、フレーム等の信頼度に基づいて、累積尤度出力単位時間を可変としている。このため、突発音が発生しても、さらには背景音とターゲット音の組み合わせが変動しても識別率の低下がおこりにくい音識別装置を提供することができる。

図１は、特許文献１における識別頻度情報の概念図である。図２は、本発明における頻度による音識別性能結果表である。図３は、本発明の実施の形態１における音識別装置の構成図である。図４は、本発明の実施の形態１における２つの単位時間と頻度とによる音種別判定法フローチャートである。図５は、本発明の実施の形態１のフレーム信頼度判定部の実行する処理のフローチャートである。図６は、本発明の実施の形態１の累積尤度出力単位時間決定部の実行する処理のフローチャートである。図７は、本発明の実施の形態１のフレーム信頼度を用いた累積尤度計算部の実行する処理のフローチャートである。図８は、本発明の実施の形態１のフレーム信頼度を用いた識別頻度の算出手法を示す概念図である。図９は、本発明の実施の形態１における音識別装置の第二の構成図である。図１０は、本発明の実施の形態１のフレーム信頼度判定部の実行する処理の第二のフローチャートである。図１１は、本発明の実施の形態１のフレーム信頼度を用いた累積尤度計算部の実行する処理の第二のフローチャートである。図１２は、音種別候補判定部が実行する処理のフローチャートである。図１３は、本発明の実施の形態１のフレーム信頼度を用いた識別頻度の算出手法を示す第二の概念図である。図１４は、本発明の実施の形態２における音識別装置の構成図である。図１５は、本発明の実施の形態２のフレーム信頼度判定部の実行する処理のフローチャートである。図１６は、本発明の実施の形態２のフレーム信頼度判定部の実行する処理の第二のフローチャートである。図１７は、本発明の実施の形態２における音識別装置の第二の構成図である。図１８は、本発明の実施の形態２の音種別候補の信頼度を用いた累積尤度計算処理を示すフローチャートである。図１９は、音種別区間決定部において、識別単位時間Ｔ内の累積尤度出力単位時間Ｔｋにおける音種別毎の出現頻度を利用して複数の識別単位区間にわたり再計算をした場合（図１９（ｂ））と出現頻度を利用しなかった場合（図１９（ａ））との音種別および区間情報出力例を示す図である。図２０は、本発明の実施の形態３における音識別装置の構成図である。図２１は、本発明の実施の形態３のフレーム信頼度判定部の実行する処理のフローチャートである。

符号の説明

１０１フレーム音特徴量抽出部
１０２フレーム尤度算出部
１０３累積尤度算出部
１０４音種別候補判定部
１０５音種別区間決定部
１０６音種別頻度算出部
１０７フレーム信頼度判定部
１０８累積尤度出力単位時間決定部
１０９フレーム信頼度判定部
１１０フレーム信頼度判定部
１１１音種別候補信頼度判定部

以下本発明の実施の形態について、図面を参照しながら説明する。

まず、本発明の実施の形態について説明する前に、本願発明者らが行なった実験より得られた知見について説明する。特許文献１に記載された手法のように、最尤モデルの頻度情報を用いて、ターゲット音と背景音との組み合わせを変えた混合音に対して音識別実験を行なった。統計的学習モデル（以下、適宜「モデル」という。）の学習には、背景音に対してターゲット音を１５ｄＢとして合成した音を用いた。また、音識別実験には、背景音に対してターゲット音を５ｄＢとした合成音を用いた。

図２は、この音識別実験の結果を示す図である。図２は、識別頻度算出のための識別単位時間Ｔを１００フレームに固定し、累積尤度算出のための累積尤度出力単位時間Ｔｋを１、１０、１００フレームと変化させた場合における識別率を百分率で表している。すなわち、累積尤度出力単位時間Ｔｋ＝１００および識別単位時間Ｔ＝１００の場合には、ひとつの単位時間でひとつの累積尤度に基づいてひとつの頻度情報を出力していることになる。このため、累積尤度のみを用いた手法と同等な処理になる。

ここで、結果を詳細に見ていく。環境音Ｎ１からＮ１７を背景音とする時、識別対象音が音声Ｍ００１や音楽Ｍ４の場合には、Ｔｋ＝１とするときが最良の識別結果となっていることがわかる。つまり、Ｔｋ＝１００とした累積尤度による手法に対しては効果が見られないことが分かる。一方で、同じ環境音（Ｎ１３を除く）が背景音で、識別対象音が環境音Ｎ１３の場合には、Ｔｋ＝１００の場合が最良という結果になっている。このように、背景音の種類によって最適なＴｋの値が異なるという傾向は、背景音が音楽または音声の場合にも見て取れる。

すなわち、背景音とターゲット音との組み合わせにより、識別率が最良となるときの累積尤度出力単位時間Ｔｋの値が変動することがわかる。逆に、累積尤度出力単位時間Ｔｋの値を特許文献１のように固定値にすると、識別率が低下する場合も見受けられる。

本発明は、この知見に基づいてなされたものである。

本発明では、複数フレームの累積尤度結果に基づいた頻度情報を用いて音識別を行うにあたり、予め学習しておいた識別対象音のモデルを用いる。識別対象音としては、音声、音楽を想定し、環境音として駅、自動車走行音、踏切等の生活騒音を想定する。それぞれの音を、あらかじめ特徴量に基づいてモデル化しておくものとする。

（実施の形態１）
図３は、本発明の実施の形態１における音識別装置の構成図である。

音識別装置は、フレーム音特徴量抽出部１０１と、フレーム尤度算出部１０２と、累積尤度算出部１０３と、音種別候補判定部１０４と、音種別区間決定部１０５と、音種別頻度算出部１０６と、フレーム信頼度判定部１０７と、累積尤度出力単位時間決定部１０８とを備えている。

フレーム音特徴量抽出部１０１は、入力音をたとえば１０ｍｓｅｃ長のフレームごとに、Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ（ＭＦＣＣ）等の音特徴量に変換する処理部である。ここで、音特徴量の算出単位となるフレーム時間長は１０ｍｓｅｃとして説明を行ったが、識別対象となるターゲット音の特徴に応じて、フレーム時間長を５ｍｓｅｃ〜２５０ｍｓｅｃとして算出するようにしても良い。フレーム時間長を５ｍｓｅｃとすると、極短時間の音の周波数特徴やその変化をも捕らえることができるので、例えばビート音や突発音などの音の早い変化を捉えて識別するために用いると良い。一方、フレーム時間長を２５０ｍｓｅｃとすると、準定常的な連続音などの周波数特徴を良く捕らえることができるので、例えばモータ音などの変動が遅いあるいはあまり変動が少ない音の周波数特徴を捉えることができるので、このような音を識別するために用いると良い。

フレーム尤度算出部１０２は、モデルとフレーム音特徴量抽出部１０１で抽出された音特徴量との間のフレームごとの尤度であるフレーム尤度を算出する処理部である。

累積尤度算出部１０３は、所定数のフレーム尤度を累積した累積尤度を算出する処理部である。

音種別候補判定部１０４は、累積尤度にもとづいて音種別の候補を判定する処理部である。音種別頻度算出部１０６は、音種別候補毎に識別単位時間Ｔにおける頻度を算出する処理部である。音種別区間決定部１０５は、音種別候補ごとの頻度情報に基づいて、識別単位時間Ｔにおける音識別とその区間とを決定する処理部である。

フレーム信頼度判定部１０７は、フレーム尤度算出部１０２で算出されたフレーム尤度を検証することにより、フレーム尤度にもとづくフレーム信頼度を出力する。累積尤度出力単位時間決定部１０８では、フレーム信頼度判定部１０７より出力されるフレーム尤度に基づくフレーム信頼度に基づいて、累積尤度を頻度情報に変換する単位時間である累積尤度出力単位時間Ｔｋを決定し、出力する。したがって、累積尤度算出部１０３は、累積尤度出力単位時間決定部１０８の出力にもとづいて、信頼度が十分に高いと判断される場合にフレーム尤度を累積した累積尤度を算出するように構成されている。

より具体的には、フレーム尤度算出部１０２は、式（１）に基づいて、たとえば「Ｓ．Ｙｏｕｎｇ，Ｄ．Ｋｅｒｓｈａｗ，Ｊ．Ｏｄｅｌｌ，Ｄ．Ｏｌｌａｓｏｎ，Ｖ．Ｖａｌｔｃｈｅｖ，Ｐ．Ｗｏｏｄｌａｎｄ，″ＴｈｅＨＴＫＢｏｏｋ（ｆｏｒＨＴＫＶｅｒｓｉｏｎ２．２），７．１ＴｈｅＨＭＭＰａｒａｍｅｔｅｒ″．（１９９９−１）」に示される、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（以降「ＧＭＭ」と記す）であらかじめ学習しておいた識別対象音特徴モデルＭｉと、入力音特徴量Ｘとの間でフレーム尤度Ｐを算出する。

また、累積尤度算出部１０３は、式（２）に示されるように、各学習モデルＭｉに対する尤度Ｐ（Ｘ（ｔ）｜Ｍｉ）の累積値として、所定の単位時間における累積尤度Ｌｉを算出し、最大の累積尤度を示すモデルＩを選択して、この単位区間における尤もらしい識別音種類として出力する。

さらに、音種別候補判定部１０４は、式（３）の第二式に示されるように、累積尤度出力単位時間Ｔｋごとに、累積尤度算出部１０３から出力される各学習モデルｉに対する累積尤度が最大となるモデルを、音種別候補とする。音種別頻度算出部１０６および音種別区間決定部１０５は、式（３）の第一式に示されるように、頻度情報をもとに識別単位時間Ｔにおける最大頻度をもつモデルを出力することにより、音識別結果を出力する。

次に、本発明の実施の形態１を構成する各ブロックの具体的な手続きについてフローチャートを用いて説明する。

図４は、累積尤度出力単位時間Ｔｋごとに累積尤度を頻度情報に変換し、識別単位時間Ｔごとに音識別結果を決定する手法の手順を示すフローチャートである。

フレーム尤度算出部１０２は、フレームｔにおける入力音特徴量Ｘ（ｔ）に対して、識別対象音の音特徴モデルＭｉのフレーム尤度Ｐｉ（ｔ）をそれぞれ求める（ステップＳ１００１）。累積尤度算出部１０３は、ステップＳ１００１から得られた入力特徴量Ｘ（ｔ）に対する各モデルのフレーム尤度を累積尤度出力単位時間Ｔｋに渡って累積することによって各モデルの累積尤度を算出し（ステップＳ１００７）、音種別候補判定部１０４は、尤度最大となるモデルをその時刻における音種別候補として出力する（ステップＳ１００８）。音種別頻度算出部１０６は、識別単位時間Ｔの区間にわたり、ステップＳ１００８で算出した音種別候補の頻度情報を算出する（ステップＳ１００９）。最後に、音種別区間決定部１０５は、得られた頻度情報より、頻度が最大となる音種別候補を選択して、この識別単位時間Ｔでの識別結果として出力する（ステップＳ１００６）。

この手法は、ステップＳ１００７における累積尤度出力単位時間Ｔｋを、識別単位時間Ｔと同じ値に設定すると、識別単位時間あたり最大頻度をひとつ出力する累積尤度の手法として捉えることもできる。また、累積尤度出力単位時間Ｔｋを１フレームと考えると、フレーム尤度を基準に最尤モデルを選択する手法と捉えることもできる。

図５は、フレーム信頼度判定部１０７の動作例を示すフローチャートである。フレーム信頼度判定部１０７は、フレーム尤度に基づいて、フレーム信頼度を算出する処理を行う。

フレーム信頼度判定部１０７は、予め、フレーム尤度にもとづくフレーム信頼度を最大値（図中では１）に初期化する（ステップＳ１０１１）。フレーム信頼度判定部１０７は、ステップＳ１０１２，ステップＳ１０１４およびステップＳ１０１５の３つの条件式のいずれかを満足する場合には、異常値つまり信頼度を最低値（図中では０）にセットすることにより信頼度判定を行う（ステップＳ１０１３）。

フレーム信頼度判定部１０７は、ステップＳ１００１で算出した入力音特徴量Ｘ（ｔ）の各モデルＭｉに対するフレーム尤度Ｐｉ（ｔ）が異常値閾値ＴＨ＿ｏｖｅｒ＿Ｐを超えるかどうかまたは異常値閾値ＴＨ＿ｕｎｄｅｒ＿Ｐ未満かどうかを判断する（ステップＳ１０１２）。各モデルＭｉに対するフレーム尤度Ｐｉ（ｔ）が異常値閾値ＴＨ＿ｏｖｅｒ＿Ｐを超える場合または異常値閾値ＴＨ＿ｕｎｄｅｒ＿Ｐ未満の場合には、信頼度がまったく無いものと考えられる。この場合には、入力音特徴量が想定外の範囲であるか学習に失敗したモデルを用いている場合が考えられる。

また、フレーム信頼度判定部１０７は、フレーム尤度Ｐｉ（ｔ）と前フレーム尤度Ｐｉ（ｔ−１）との間の変動が小さいかどうかを判定する（ステップＳ１０１４）。実環境の音は常に変動しているものであり、音入力が正常に行われていれば、尤度にも音の変動に呼応した変動が認められるものである。したがって、フレームが変わっても尤度の変動が認められないほど小さい場合には、入力音そのものまたは音特徴量の入力が途絶えているものと考えられる。

さらに、フレーム信頼度判定部１０７は、算出されたフレーム尤度Ｐｉ（ｔ）の中で、その最大となるモデルに対するフレーム尤度値と最小となるモデル尤度値の差が閾値より小さいかどうかを判定する（ステップＳ１０１５）。これは、モデルに対するフレーム尤度の最大値と最小値との差が閾値以上ある場合には、入力音特徴量と近い優位なモデルが存在し、この差が極端に小さい場合には、いずれのモデルも優位ではないということを示すと考えられる。そこで、これを信頼度として利用するものである。そこで、フレーム尤度最大値と最小値との差が閾値以下である場合には（ステップＳ１０１５でＹ）、フレーム信頼度判定部１０７は、異常値に該当するフレームとして、該当フレーム信頼度を０にセットする（ステップＳ１０１３）。一方、比較結果が閾値以上である場合には（ステップＳ１０１５でＮ）、優位のモデルが存在するものとして、フレーム信頼度に１を与えることができる。

このようにフレーム尤度に基づきフレーム信頼度を算出し、フレーム信頼度が高いフレームに関する情報を用いて、累積尤度出力単位時間Ｔｋを決定し、頻度情報を算出することができる。

図６は、累積尤度出力単位時間決定部１０８の動作例を示す累積尤度出力単位時間決定手法のフローチャートである。累積尤度出力単位時間決定部１０８は、現在の累積尤度出力単位時間Ｔｋで決定される区間において、フレーム尤度によるフレーム信頼度Ｒ（ｔ）の出現傾向を調べるためにフレーム信頼度の頻度情報を算出する（ステップＳ１０２１）。分析した出現傾向から、入力音特徴量等が異常であることを示すように、フレーム信頼度が０である、もしくはフレーム信頼度Ｒ（ｔ）が０に近い値が頻発している場合には（ステップＳ１０２２でＹ）、累積尤度出力単位時間決定部１０８は、累積尤度出力単位時間Ｔｋを増加させる（ステップＳ１０２３）。

フレーム信頼度Ｒ（ｔ）が１に近い値が頻発している場合には（ステップＳ１０２４でＹ）、累積尤度出力単位時間決定部１０８は、累積尤度出力単位時間Ｔｋを減少させる（ステップＳ１０２５）。このようにすることによって、フレーム信頼度Ｒ（ｔ）が低い場合には、フレーム数を長くして累積尤度を求め、フレーム信頼度Ｒ（ｔ）が高い時には、フレーム数を短くして累積尤度を求めて、その結果に応じた頻度情報を得ることができるため、従来の方法に比較して、相対的に短い識別単位時間で同じ精度の識別結果が自動的に得られるようになる。

図７は、累積尤度算出部１０３の動作例を示す累積尤度算出手法のフローチャートである。図７において、図４と同じ構成要素については同じ符号を用い、説明を省略する。累積尤度算出部１０３は、モデルごとの累積尤度Ｌｉ（ｔ）を初期化する（ステップＳ１０３１）。小規模素片接続部１０３は、ステップＳ１０３２からステップＳ１０３４で示されるループにおいて、累積尤度を算出する。このとき、小規模素片接続部１０３は、フレーム尤度に基づくフレーム信頼度Ｒ（ｔ）が異常を示す０かどうか判定を行い（ステップＳ１０３３）、０で無い場合にのみ（ステップＳ１０３３でＮ）、ステップＳ１００７で示されるように、モデルごとの累積尤度を算出する。このように、累積尤度算出部１０３は、フレーム信頼度を考慮して累積尤度を算出することにより、信頼度がない音情報を含まずに累積尤度を算出することができる。このため、識別率を上げることができることが期待できる。

音種別頻度算出部１０６においては、図７のように出力された頻度情報を、所定の識別単位時間Ｔの間累積し、音種区間決定部１０５においては、式３に従って、識別単位区間における頻度が最大となるモデルを選択し識別単位区間を、決定する。

図８は、図３に示した音識別装置を用いて出力される頻度情報の算出法を示す概念図である。この図においては、音種として音楽が入力されている場合の具体的な識別結果例を挙げて、本発明の効果について説明する。識別単位時間Ｔの中で、入力音特徴量１フレームごとにモデルに対する尤度をそれぞれ求め、各モデルに対する尤度群より、フレーム信頼度をフレームごとに算出する。図中の横軸は、時間軸を示しており、ひとつの区切りを１フレームとしている。このとき、算出された尤度信頼度は、最大値１または最小値０のいずれかの値が与えられるものとし、最大値１のとき、尤度の信頼度があり、最小値０のとき、尤度の信頼度がない異常値とみなすことができる指標とする。

従来法つまり累積尤度出力単位時間Ｔｋが固定の条件では、１フレームごとに得られた尤度のうち最大尤度となるモデルの頻度情報を算出する。従来法は、信頼度を用いない手法であるため、出力される最尤モデルの頻度情報がそのまま反映されることになる。音識別結果として出力される情報は、区間単位の頻度情報で決定される。この図の例では、識別単位時間Ｔの中で、音種Ｍ（音楽）が２フレーム、音種Ｓ（音声）が４フレームという頻度結果であることから、この識別単位時間Ｔにおける最大頻度のモデルは音種Ｓ（音声）となり誤識別の結果が得られることとなる。

一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、図中段のように、１フレームごとに信頼度が、１か０かの値で示されており、この信頼度を用いて累積尤度を算出するための単位時間が変化することにより、頻度情報が出力される。たとえば、信頼度なしと判断されたフレームの尤度は、直接頻度情報に変換されず、信頼度ありと判断されたフレームに達するまで、累積尤度として算出される。この例では、信頼度が０となっている区間が存在する結果、識別単位時間Ｔにおける最多頻度情報は、音種Ｍ（音楽）が頻度情報として出力される。識別単位時間Ｔにおける最大頻度のモデルは音種Ｍ（音楽）となることから、正しい種別として識別ができていることがわかる。したがって、本発明の効果として、信頼度がないと判断されるフレーム尤度を直接用いないことで、不安定な頻度情報を吸収することにより識別結果を高めることが期待できる。

かかる構成によれば、累積尤度情報を頻度情報に変換する際に、尤度信頼度に基づいた頻度情報に変換することにより、突発的な異常音などが頻繁に発生して音の種別の入れ替わりが頻繁する場合であっても、累積尤度算出単位時間の長さを適切に設定できる（信頼度が所定値よりも高い場合は累積尤度算出単位時間を短く、信頼度が所定値よりも低い場合は累積尤度算出単位時間を長く設定できる）。このため、音の識別率の低下を抑制することができる。さらに、背景音やターゲット音が変化した場合でも、より適切な累積尤度算出単位時間に基づいて音の識別ができるため、音の識別率の低下を抑制することができる。

つぎに、本発明の実施の形態１における音識別装置の第二の構成図である図９について説明する。図９において、図３と同じ構成要素については同じ符号を用い、説明を省略する。

図９において、図３との違いとしては、音種別頻度算出部１０６が、音種別候補判定部１０４から出力される音種別候補情報から音種別頻度情報を算出する際に、フレーム信頼度判定部１０７から出力されるフレーム信頼度を用いて算出するように構成されている点が異なる。

かかる構成によれば、累積尤度情報から算出された音種別候補を頻度情報に変換する際に、尤度信頼度に基づいた頻度情報に変換することにより、突発的な異常音などの短時間の影響を低減することができるため、背景音やターゲット音が変化してもより適切な累積尤度算出単位時間に基づいて識別率の低下を抑制することができる。

図１０は、フレーム尤度によるフレーム信頼度判定手法として、フレーム信頼度判定部１０７が実行する第二の手法例を示すフローチャートである。図１０において、図５と同じ処理については同じ符号を用い、説明を省略する。図５の手法では、ステップＳ１０１５において、フレーム信頼度判定部１０７が、入力特徴量に対する各モデルのフレーム尤度を算出し、その最大となるモデルのフレーム尤度値と最小となるモデルのフレーム尤度値の差が閾値より小さいかどうかを用いて、信頼度の値を０か１かに設定していた。

ここでは、フレーム信頼度判定部１０７が信頼度を０か１かのいずれかに設定するのではなく、フレーム信頼度判定部１０７が０から１の中間値をとるように信頼度を与える。具体的には、ステップＳ１０１６のように、フレーム信頼度判定部１０７は、信頼度のさらなる基準として、最大値をとるモデルのフレーム尤度がどの程度優位性のあるのかを判断する尺度とみなす基準を加えることもできる。そこで、フレーム信頼度判定部１０７は、フレーム尤度の最大値と最小値の比を信頼度として与えるようにしてもよい。

図１１は、累積尤度算出部１０３の、図７とは別の動作例を示す累積尤度算出方法のフローチャートである。図１１において、図７と同じ処理については同じ符号を用い、説明を省略する。この動作例では、累積尤度算出部１０３は、出力する頻度情報の個数を初期化しておき（ステップＳ１０３５）、累積尤度算出の際に、フレーム信頼度が１に近いかどうかを判定する（ステップＳ１０３６）。フレーム信頼度が十分に高いと認められる場合には（ステップＳ１０３６でＹ）、累積尤度算出部１０３は、該当フレームの頻度情報を直接出力するために、最尤モデル識別子の保存を行っておく（ステップＳ１０３７）。そして、図１２のステップＳ１０３８で表される音種別候補判定部１０４が実行する処理において、単位識別区間Ｔｋにおける累積尤度が最大のモデルを加えて、ステップＳ１０３７において保存しておいた複数の最大モデルによる音種別候補を出力する。図４のステップＳ１００８では一つの音種別候補を用いるのに対して、音種別候補判定部１０４は、このように信頼度が高いフレームがｋ個存在する場合にはｋ＋１個の音種別候補を出力することになる。このため、結果として、信頼度の高いフレームの情報に重み付けがなされた、頻度情報つきの音種別候補が算出されることとなる。

音種別頻度算出部１０６は、図１１および図１２の処理に従い出力された音種別候補を、識別単位時間Ｔの間累積することによって頻度情報を求める。また、音種区間決定部１０５は、式３に従って、識別単位区間における頻度が最大となるモデルを選択し、識別単位区間を決定する。

なお、音種別区間決定部１０５は、フレーム信頼度が高く頻度情報が集中している区間に限定して最大の頻度情報を有するモデルを選択して、音の種別とその区間を決定するようにしてもよい。このようにフレーム信頼度の低い区間での情報を用いないことによって、識別の精度向上が期待できる。

図１３は、図３または図９に示した音識別装置により出力される頻度情報の算出法を示す概念図である。識別単位時間Ｔの中で、入力音特徴量１フレームごとにモデルに対する尤度をそれぞれ求め、各モデルに対する尤度群より、フレーム信頼度をフレームごとに算出する。図中の横軸は、時間軸を示しており、ひとつの区切りが１フレームとしている。このとき、算出された尤度信頼度は、最大値１および最小値０となるように正規化されているものとし、最大値１に近いほど尤度の信頼度があり（図中では一フレームでも識別十分な状態Ａ）、最小値０に近いほど（図中では、該フレームの信頼度がまったくない状態Ｃ）、（その中間が状態Ｂ）尤度の信頼度が低いとみなすことができる指標とする。この例では、図１１に示したように、算出された尤度信頼度を２つの閾値を用いて検証することにより、フレーム累積度を算出している。一つ目の閾値は、出力された尤度の１フレームが十分に大きく、信頼に足るものかどうか判断するものである。図の例では、信頼度が０．５０以上の場合に、１フレームで頻度情報に変換可能とみなしている。２つ目の閾値は、出力された尤度信頼度が低すぎるために頻度情報には変換しないかどうかを判断するものである。図の例では、信頼度が０．０４未満の場合に、該当する。この２つの閾値の間に尤度信頼度がある場合には、複数フレームでの累積尤度をもとに、頻度情報に変換するようにしている。

ここで具体的な識別結果例を挙げて、本発明の効果について説明する。従来法つまり累積尤度出力単位時間Ｔｋが固定の条件では、１フレームごとに得られた尤度から最大累積尤度となるモデルの頻度情報を算出する。そのため、図８に示した結果と同様に、識別単位時間Ｔの中で、音種Ｍ（音楽）が２フレーム、音種Ｓ（音声）が４フレームという結果となり、この識別単位時間Ｔにおける最大頻度のモデルは音種Ｓ（音声）となってしまうため誤識別となる。

一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、１フレームでの頻度情報への変換に足る尤度のフレームからは、３段階の信頼度をもとに、累積尤度を可変長にしながら頻度情報を求めてゆくことができる。そのため、不安定な区間の頻度情報を直接用いることなく識別結果を得ることができるようになる。また、図中の例の識別対象区間Ｔの中の最後のフレームのように、信頼度が低く、頻度情報が結果的に用いられていないようなフレームに関しては、累積尤度の計算上無視することもできる。このようにすることで、信頼度の多段階化により、さらに精度よく識別を行うことができるものと期待できる。

なお、上記の例では識別単位時間Ｔにつき、識別判定結果をひとつ出力する例として説明したが、信頼度の高い区間あるいは低い区間を基点とした識別判定結果を複数出力するようにしてもよい。このような構成により、識別単位時間Ｔ当たりの識別結果が固定タイミングで出力されるのではなく、信頼度の高い区間の情報が可変化タイミングで適宜出力することができるため、たとえ識別単位時間Ｔを長めに設定しておいても信頼度により識別結果が確からしい区間では、すばやく結果を得られるようになる。識別単位時間Ｔを短めに設定しておいた場合にも、信頼度の高い区間の結果を早く得られることが可能である。

なおフレーム音特徴量抽出部１０１で使用する音特徴量学習モデルについては、ＭＦＣＣを、モデルについては、ＧＭＭを用いるものと想定した説明を行ったが、本発明ではこれらに限定されるものではなく、特徴量として周波数特徴量を現すＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）やＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）やＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）などを用いてもかまわない。また、モデル学習法としては、状態遷移を考慮してＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いてもよい。

また、ＰＣＡ（主成分分析）などの統計的手法を用いて音特徴量の独立性などの成分分解あるいは成分抽出したうえで、モデル学習する手法を用いてもよい。

（実施の形態２）
図１４は、本発明の実施の形態２の音識別装置の構成図である。図１４において、図３と同じ構成要素については同じ符号を用い、説明を省略する。実施の形態１では、フレーム尤度に基づきフレーム単位の音情報信頼度を利用した方法であったが、本実施の形態では、累積尤度を用いて、フレーム信頼度を算出し、これを利用して、頻度情報を算出する。

図１４において、フレーム信頼度判定部１１０は、累積尤度算出部１０３で算出された現時点のモデルごとの累積尤度を算出し、累積尤度出力単位時間決定部１０８において累積尤度出力単位時間を決定するように構成している。

図１５は、フレーム信頼度判定部１１０により、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図１５において、図５と同じ構成要素については同じ符号を用い、説明を省略する。フレーム信頼度判定部１１０は、ステップＳ１０５１からステップＳ１０５４において、単位時間における最尤累積尤度と僅差であるモデルの個数をカウントする。フレーム信頼度判定部１１０は、累積尤度算出部１０３において算出した各モデルの累積尤度に対して、最尤累積尤度との差が所定値以内になるかどうか、各モデルについて判定を行う（ステップＳ１０５２）。当該差が所定値内である場合には（ステップＳ１０５２でＹ）、フレーム信頼度判定部１１０は、候補としてその候補数をカウントし、そのモデル識別子を保存する（ステップＳ１０５３）。フレーム信頼度判定部１１０は、ステップＳ１０５５において、フレームごとに上記候補数を出力し、累積尤度モデルの候補数の変動が所定値以上であるか否かを判断する（ステップＳ１０５５）。所定地以上の場合には（ステップＳ１０５５でＹ）、フレーム信頼度判定部１１０は、フレーム信頼度に異常値０をセットし（ステップＳ１０１３）、所定値以下である場合には（ステップＳ１０５５でＮ）、フレーム信頼度判定部１１０は、フレーム信頼度に正常値１をセットする（ステップＳ１０１１）。

このような構成にすることによって、上記候補数の変化から、入力音の変動を見出すことが可能であり、識別対象音や背景音から構成される混合音の構成状況が変化していることが推測される。識別対象としている音が発生し続けて、背景音が変動している場合には、背景音の中で識別対象音と近い音が発生消滅を繰り返している場合に有用であると考えられる。

なお、上記のように算出した音種別候補、つまり最尤の累積尤度から所定値以内の識別子の組み合わせが変化したことを検知して、変化点であることあるいは候補数の増減値をフレーム信頼度として用いて頻度情報に変換してもよい。

図１６は、フレーム信頼度判定部１１０における、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図１６において、図５および図１５と同じ構成要素については同じ符号を用い、説明を省略する。本手法では、図１５とは反対に、最小の累積尤度を基準として、累積尤度が僅差となるモデルの候補数を用いて、信頼度を獲得する。フレーム信頼度判定部１１０は、ステップＳ１０５６からステップＳ１０５９までのループにおいて、単位時間における最小累積尤度と僅差であるモデルの数をカウントする。フレーム信頼度判定部１１０は、累積尤度算出部１０３において算出された各モデルの累積尤度に対して、最小累積尤度との差が所定値以下になるかどうか、各モデルについて判定を行う（ステップＳ１０５７）。所定値以下である場合には（ステップＳ１０５７でＹ）、フレーム信頼度判定部１１０は、候補数をカウントし、そのモデル識別子を保存する（ステップＳ１０５８）。フレーム信頼度判定部１１０は、上記ステップにおいて算出した、最小累積モデルの候補数の変動が所定値以上であるか否かを判断し（ステップＳ１０６０）、当該変動が所定値以上である場合には（ステップＳ１０６０でＹ）、フレーム信頼度判定部１１０は、フレーム信頼度を０にセットし信頼度なしと判断し（ステップＳ１０１３）、当該変動が所定値以下である場合には（ステップＳ１０６０でＮ）、フレーム信頼度を１にセットして信頼度ありと判断する（ステップＳ１０１１）。

なお、上記のように算出した音種別候補、つまり最低の累積尤度からの識別子の組み合わせが変化したことを検知して、変化点であることあるいは候補数の増減値をフレーム信頼度として用いて頻度情報に変換してもよい。

また、上記図１５および図１６では、それぞれ最大尤度および最小尤度となるモデルから、尤度が所定値の範囲内にあるモデルの個数を用いてフレーム信頼度の算出を説明したが、最大尤度から尤度が所定値の範囲内にあるモデルの個数と最小尤度から尤度が所定値の範囲内にあるモデルの個数との双方の情報を用いて、フレーム信頼度を算出し、頻度情報に変換するようにしてもよい。

なお、この最尤の累積尤度から尤度が所定値の範囲内にあるモデルとは、累積尤度を算出した区間の音種別としての確からしさが非常に高くなるモデルである。そこで、ステップＳ１０５３においてモデルごとに尤度が所定値内にあると判定されたモデルのみを信頼度があるものとして、モデルごとに信頼度を作成して、頻度情報への変換に利用してもよい。また、この最低の累積尤度から所定値内にあるモデルとは、累積尤度を算出した区間の音種別としての確からしさが非常に低くなるモデルである。そこで、ステップＳ１０５８においてモデルごとに所定値内にあると判定されたモデルのみを信頼度がないものとして、モデルごとに信頼度を作成して頻度情報への変換に利用してもよい。

なお、上記の構成では、累積尤度にもとづくフレーム信頼度を用いて頻度情報に変換する方法を説明したが、フレーム尤度にもとづくフレーム信頼度と、累積尤度にもとづくフレーム信頼度とを比較して、双方の一致区間を選択し、累積尤度にもとづくフレーム信頼度を重み付けするようにしてもよい。

このような構成により、累積尤度によるフレーム信頼度を用いながら、フレーム単位の短い応答を保つことができる。このため、累積尤度によるフレーム信頼度が連続して同じ音種別候補が出力されていても、フレーム尤度によるフレーム信頼度の遷移が行われているような区間を検出することができる。したがって、突発音などによる短時間の尤度劣化の検出も可能となる。

また、実施の形態１または実施の形態２では、尤度または累積尤度をもとに算出するフレーム信頼度を用いて頻度情報に変換する方法を説明したが、さらに音モデルごとに信頼度を設ける音種別候補信頼度を用いて頻度情報あるいは識別結果を出力するようにしてもよい。

図１７は、本発明の実施の形態２の音識別装置の第二の構成図である。図１７において、図３および図１４と同じ構成要素については同じ符号を用い、説明を省略する。図１４に示す実施の形態では、累積尤度によるフレーム信頼度を算出し頻度情報を出力したが、本構成では、累積尤度による音種別候補信頼度を算出しこれを利用して、頻度情報を算出する。

図１７において、音種別候補信頼度判定部１１１は、累積尤度算出部１０３で算出された現時点のモデルごとの累積尤度を算出し、累積尤度出力単位時間決定部１０８において累積尤度出力単位時間を決定するように構成している。

図１８は、最尤の音種別から所定値以内の累積尤度を持つ音種別候補を信頼度があるという基準にもとづいて算出される、音種別候補信頼度を用いた累積尤度計算処理のフローチャートである。図１１と同じ構成要素については同じ符号を用い、説明を省略する。累積尤度算出部１０３は、識別単位時間内、最尤の累積尤度と累積尤度が所定値以内のモデルＭｉがある場合には（ステップＳ１０６２でＹ）、そのモデルを音種別候補として保存しておき（ステップＳ１０６３）、図１２に示した流れで、音種別候補判定部１０４が音種別候補を出力する。

このような構成にすることによって、音種別候補信頼度を用いて、モデルごとに信頼度を設けることができるため、モデルに対して重み付けをした頻度情報を出力することが可能となる。また、所定数連続してあるいは一定の時間に対しての出力頻度が所定閾値よりも高い場合には、識別単位時間Ｔに達しなくても、音種別をして決定し区間情報とともに出力することで、より音識別区間の遅れなく出力することができる。

続いて、識別単位時間Ｔの区間から得られた頻度情報において、音種別の頻度差がほとんどない、つまり優位となる音種別が存在しないために陥る誤識別を抑制する音種別結果の出力方法について説明する。

上述したように、入力音として音楽（Ｍ）と音声（Ｓ）とが交互に入れ替わり、かつ、フレーム信頼度が高い場合には、識別単位時間Ｔに至らなくとも音種別候補が出力される。しかし、音楽（Ｍ）に近い音、背景音または雑音（Ｎ）が存在したり、交互に入れ替わる音声（Ｓ）または音楽（Ｍ）に近いモデルが多数存在し、１つのモデルを特定できない場合には、上記の場合と異なりフレーム信頼度が低下する。さらに、各累積尤度区間Ｔｋが識別単位時間Ｔの区間に対して無視できない時間長で続くと、識別単位時間Ｔにおいて得られる頻度数が減少することになる。その結果として、識別単位時間Ｔにおいて音楽（Ｍ）や音声（Ｓ）の頻度差が少なくなる場合がある。このような場合には、識別単位時間Ｔにおける頻度最大モデルとして優位なモデルが存在せず、実際の音種別とは異なった音種別候補を出力するという課題が生じる。

そこで、変形例では、識別単位時間Ｔ内の累積尤度出力単位時間Ｔｋにおける音種別毎の出現頻度を利用して、１つの識別単位時間Ｔから出力される音種別結果を信頼して良いかを判断する機能を図１７の音識別頻度算出部１０６に持たせている。

図１９は、音種別区間決定部１０５において、識別単位時間Ｔ内の累積尤度出力単位時間Ｔｋにおける音種別毎の出現頻度を利用して複数の識別単位区間にわたり再計算をした場合（図１９（ｂ））と出現頻度を利用しなかった場合（図１９（ａ））との音種別および区間情報出力例を示す。

この図１９では、音種別区間決定部１０５による識別単位区間Ｔ０からＴ５において、各識別単位時間、モデル毎の出現頻度、総有効頻度数、総頻度数、識別単位時間ごとの頻度最大のモデル、最終的に音種別区間決定部１０６から出力される音種別結果および実際に発生した音の音種別について、列挙している。

まず、識別単位時間は、原則的には所定値Ｔ（この例では１００フレーム）であるが、音種別頻度算出部１０６の累積尤度出力時にフレーム信頼度が所定フレーム連続して所定閾値より高い場合には識別単位時間が所定値Ｔにまで達しなくとも出力されるため、図中識別単位区間Ｔ３およびＴ４では、所定値よりも識別単位時間が短くなっていることを示している。

つぎに、モデル毎の出現頻度を示している。ここで「Ｍ」は音楽を示し、「Ｓ」は音声、「Ｎ」は雑音を示し、「Ｘ」は無音を示している。最初の識別時間単位Ｔ０における出現頻度を見ると、Ｍが３６、Ｓが３５、Ｎが５、Ｘが２である。したがって、この場合、最大の頻度であるモデルは、Ｍとなる。図１９では識別単位区間ごとに出現頻度最大のモデルを下線で示している。ここで、図１９中の「総頻度数」とは、各識別単位区間における頻度の合計であり、また「総有効頻度数」とは総頻度数から無音Ｘの出現頻度を除いた頻度の合計である。図中の識別単位区間Ｔ０やＴ１のように、識別単位区間のフレーム数（それぞれ１００と１００）よりも総頻度数が小さい区間（それぞれ７８と８５）では、図８や図１３で示したように、累積尤度出力単位時間Ｔｋが長くなったため、不安定な頻度情報が吸収されて頻度数が減少したことを示している。したがって、Ｔ０からＴ５の区間を通じた、識別単位時間ごとの頻度最大のモデルは、横方向を時間方向としてそれぞれ「ＭＳＳＭＳＭ」と出力されている。

図１９の例に対して、音種別区間決定部１０６において、出現頻度を利用しない場合の音種別と区間情報出力について説明する。この場合には、音種別頻度算出部１０５からの音種別頻度に対する評価を行わずに、頻度最大のモデルをそのまま音種別として用い、またその連続している部分がある場合には区間を統合することで最終的に音種別と区間情報として出力される（識別単位時間Ｔ１とＴ２の区間が連結されて一つのＳの区間となる。）。図１９の例において、実際の音種別と比較すると、出現頻度を利用しない場合には、識別時間単位Ｔ０において、実際にはＳであるにもかかわらず、音種別はＭと出力されていることから、識別結果が誤ったまま何も改善されていないことが分かる。

そこで、出現頻度を利用する場合について説明する。図１７の音識別頻度算出部１０６が出力する識別単位時間毎のモデル毎の頻度を利用して、識別単位時間における頻度最大のモデルが信頼できるかを示す頻度信頼度を用いて識別単位時間における頻度最大モデルが何であるか判断する。ここで、頻度信頼度は、識別単位区間内において、異なるモデルの出現頻度差を総有効頻度数（識別単位区間の総頻度数から無音区間Ｘなどの無効頻度を除いた数）で割った値とする。このとき頻度信頼度の値は、０から１の間の値をとる。例えば、音楽（Ｍ）か音声（Ｓ）かを判断する場合は、頻度信頼度の値は、ＭとＳとの出現頻度の差を総有効頻度数で割った値となる。この場合には頻度信頼度は、識別単位区間におけてＭとＳとの差が小さければ０に近い小さい値となり、ＭとＳとのどちらかが多ければ１に近い大きい値となる。ＭとＳとの差が小さい、つまりこの頻度信頼度が０に近い値ということは、識別単位区間においてＭとＳとのどちらを信用して良いかわからない状態であることを示している。図１９（ｂ）では識別単位区間毎に頻度信頼度Ｒ（ｔ）を計算した結果を示している。識別単位区間Ｔ０およびＴ１のように、頻度信頼度Ｒ（ｔ）が所定値（０．５）を下回ったとき（０．０１および０．３９）、信頼できないものと判断するものとする。

このような判断基準を用いた具体的な手順について説明する。頻度信頼度Ｒ（ｔ）が０．５以上の場合は識別単位区間の頻度最大のモデルをそのまま使用し、頻度信頼度Ｒ（ｔ）が０．５よりも小さい場合は複数の識別単位区間においてモデル毎の頻度を再度計算して頻度最大のモデルを決定する。図１９では頻度信頼度が低い最初の２つの識別単位区間Ｔ０とＴ１において、それぞれのモデル毎の頻度を足し、２つの区間にわたって再計算された頻度情報に基づいて、新たにその２つの識別単位区間の頻度最大モデルＳと決定している。この結果、識別単位区間Ｔ０の識別結果は、音種別頻度算出部１０５から得られた最大頻度の音種別はＭからＳへと変わり、実際の音結果と一致することが分かる。

このように頻度信頼度が低い部分は、複数の識別単位区間におけるモデル毎の頻度を使用することで、雑音等の影響で識別単位区間の頻度最大モデルの頻度信頼度が低くなったとしても、正確に音種別を出力できる。

（実施の形態３）
図２０は、本発明の実施の形態３の音識別装置の構成図である。図２０において、図３および図１４と同じ構成要素については同じ符号を用い、説明を省略する。本実施の形態では、音特徴量自身の信頼度を用いて、音特徴量自身のモデルごとの信頼度を算出しこれを利用して、頻度情報を算出する。さらに、出力情報として信頼度情報も出力を行う。

図２０において、音特徴量によるフレーム信頼度判定部１０９は、フレーム音特徴量抽出部１０１で算出された音特徴量より、判定に適しているかどうか音特徴量を検証することにより音特徴量信頼度を出力する。累積尤度出力単位時間決定部１０８はこのフレーム信頼度判定部１０９の出力に基づいて累積尤度出力単位時間を決定するように構成している。また、最終的に結果を出力する音種別区間決定部１０５においても、この信頼度を音種別と区間とともに出力する。

このような構成にすることによって、フレーム信頼度が低い区間情報も一緒に出力するようにしてもよい。このような構成にすることで、たとえば同一音種が連続している中でも、信頼度の遷移過程などを調べることによって突発的な音の発生を検知することが可能となる。

図２１は、音特徴量にもとづき音特徴量の信頼度を算出するフローチャートである。図２１において、図５と同じ構成要素については同じ符号を用い、説明を省略する。

フレーム信頼度判定部１０７は、音特徴量のパワーが所定の信号パワー以下かどうか判定する（ステップＳ１０４１）。音特徴量のパワーが所定の信号パワー以下である場合には（ステップＳ１０４１でＹ）、音特徴量によるフレーム信頼度を、信頼度なしとして０にセットする（ステップＳ１０４１でＹ）。それ以外の場合には（ステップＳ１０４１でＮ）、フレーム信頼度判定部１０７は、フレーム信頼度を１にセットする（ステップＳ１０１１）。

このような構成にすることによって、音種別の判定以前に音入力の段階での信頼度をもって、音の種別の判定が行うことができるようになる。

なお、図２０では、出力する信頼度情報を音特徴量に基づく値として説明を行ったが、実施の形態１や実施の形態２で述べたように、フレーム尤度に基づく信頼度、累積尤度に基づく信頼度、モデルごとの累積尤度に基づく信頼度のいずれを用いてもよい。

本発明にかかる音識別装置は、信頼度に基づき尤度から変換された頻度情報を用いて音の種別を判定する機能を有する。そこで、識別対象音として、特定のカテゴリのシーンを特徴付ける音を用いて学習しておくことにより、実環境下で収録した、オーディオやビデオなどの中から、特定のカテゴリの音の区間を抽出したり、歓声などを抽出識別対象とすることによって、コンテンツシーン中の観客の興奮シーンのみを連続して抽出したりすることが可能である。また、これら検出した音種別や区間情報をタグとして用い、連動する他の情報を記録し、ＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）コンテンツのタグ検索装置等に利用することができる。

さらに非同期に様々な音が発生している録音ソースから、音声区間を検出し、その区間のみを再生する音編集装置等として有用である。

また、信頼度が変化した区間を出力することによって、同一音種が検出されていたとしても音の変化区間たとえば短時間の突発音区間などをも抽出できる。

また、音識別結果として、音種別結果とその区間だけでなくフレーム尤度等の信頼度を出力して利用するようにしても良い。たとえば、音声の編集の際に信頼度が低い箇所検出した場合にビープ音等を嗚らして検索編集の手がかりとするようにしてもよい。このようにすれば、ドアの音やピストルの音など短時間音であるためにモデル化が困難である音を探索する場合に検索操作の効率化が期待される。

また、出力された信頼度や累積尤度や頻度情報の入れ替わりが発生している区間を図示化してユーザ等に提示しても良い。これにより信頼度が小さい区間を容易にユーザが見出すことができ、編集操作などの効率化も期待できる。

本発明における音識別装置を録音機器などに装備することによって、必要な音を選択して録音することにより、録音容量を圧縮することができる録音装置等にも適用可能である。

本発明は、この知見に基づいてなされたものである。

フレーム音特徴量抽出部１０１は、入力音をたとえば１０ｍｓｅｃ長のフレームごとに、Mel-Frequency Cepstrum Coefficients（ＭＦＣＣ）等の音特徴量に変換する処理部である。ここで、音特徴量の算出単位となるフレーム時間長は１０ｍｓｅｃとして説明を行ったが、識別対象となるターゲット音の特徴に応じて、フレーム時間長を５ｍｓｅｃ〜２５０ｍｓｅｃとして算出するようにしても良い。フレーム時間長を５ｍｓｅｃとすると、極短時間の音の周波数特徴やその変化をも捕らえることができるので、例えばビート音や突発音などの音の早い変化を捉えて識別するために用いると良い。一方、フレーム時間長を２５０ｍｓｅｃとすると、準定常的な連続音などの周波数特徴を良く捕らえることができるので、例えばモータ音などの変動が遅いあるいはあまり変動が少ない音の周波数特徴を捉えることができるので、このような音を識別するために用いると良い。

より具体的には、フレーム尤度算出部１０２は、（式１）に基づいて、たとえば「S.Young, D.Kershaw, J.Odell, D.Ollason, V.Valtchev, P.Woodland,"The HTK Book (for HTK Version 2.2), 7.1 The HMM Parameter".(1999-1)」に示される、Gaussian Mixture Model（以降「ＧＭＭ」と記す）であらかじめ学習しておいた識別対象音特徴モデルＭｉと、入力音特徴量Ｘとの間でフレーム尤度Ｐを算出する。

また、累積尤度算出部１０３は、（式２）に示されるように、各学習モデルＭｉに対する尤度Ｐ（Ｘ（ｔ）｜Ｍｉ）の累積値として、所定の単位時間における累積尤度Ｌｉを算出し、最大の累積尤度を示すモデルＩを選択して、この単位区間における尤もらしい識別音種類として出力する。

さらに、音種別候補判定部１０４は、（式３）の第二式に示されるように、累積尤度出力単位時間Ｔｋごとに、累積尤度算出部１０３から出力される各学習モデルｉに対する累積尤度が最大となるモデルを、音種別候補とする。音種別頻度算出部１０６および音種別区間決定部１０５は、（式３）の第一式に示されるように、頻度情報をもとに識別単位時間Ｔにおける最大頻度をもつモデルを出力することにより、音識別結果を出力する。

音種別頻度算出部１０６においては、図７のように出力された頻度情報を、所定の識別単位時間Ｔの間累積し、音種区間決定部１０５においては、（式３）に従って、識別単位区間における頻度が最大となるモデルを選択し識別単位区間を、決定する。

音種別頻度算出部１０６は、図１１および図１２の処理に従い出力された音種別候補を、識別単位時間Ｔの間累積することによって頻度情報を求める。また、音種区間決定部１０５は、（式３）に従って、識別単位区間における頻度が最大となるモデルを選択し、識別単位区間を決定する。

一方、本発明による尤度信頼度を用いた頻度情報の算出条件では、１フレームでの頻度情報への変換に足る尤度のフレームからは、３段階の信頼度をもとに、累積尤度を可変長にしながら頻度情報を求めていくことができる。そのため、不安定な区間の頻度情報を直接用いることなく識別結果を得ることができるようになる。また、図中の例の識別対象区間Ｔの中の最後のフレームのように、信頼度が低く、頻度情報が結果的に用いられていないようなフレームに関しては、累積尤度の計算上無視することもできる。このようにすることで、信頼度の多段階化により、さらに精度よく識別を行うことができるものと期待できる。

図１５は、フレーム信頼度判定部１１０により、累積尤度によりフレーム信頼度を判定する手法を示すフローチャートである。図１５において、図５と同じ構成要素については同じ符号を用い、説明を省略する。フレーム信頼度判定部１１０は、ステップＳ１０５１からステップＳ１０５４において、単位時間における最尤累積尤度と僅差であるモデルの個数をカウントする。フレーム信頼度判定部１１０は、累積尤度算出部１０３において算出した各モデルの累積尤度に対して、最尤累積尤度との差が所定値以内になるかどうか、各モデルについて判定を行う（ステップＳ１０５２）。当該差が所定値内である場合には（ステップＳ１０５２でＹ）、フレーム信頼度判定部１１０は、候補としてその候補数をカウントし、そのモデル識別子を保存する（ステップＳ１０５３）。フレーム信頼度判定部１１０は、ステップＳ１０５５において、フレームごとに上記候補数を出力し、累積尤度モデルの候補数の変動が所定値以上であるか否かを判断する（ステップＳ１０５５）。所定値以上の場合には（ステップＳ１０５５でＹ）、フレーム信頼度判定部１１０は、フレーム信頼度に異常値０をセットし（ステップＳ１０１３）、所定値以下である場合には（ステップＳ１０５５でＮ）、フレーム信頼度判定部１１０は、フレーム信頼度に正常値１をセットする（ステップＳ１０１１）。

本発明にかかる音識別装置は、信頼度に基づき尤度から変換された頻度情報を用いて音の種別を判定する機能を有する。そこで、識別対象音として、特定のカテゴリのシーンを特徴付ける音を用いて学習しておくことにより、実環境下で収録した、オーディオやビデオなどの中から、特定のカテゴリの音の区間を抽出したり、歓声などを抽出識別対象とすることによって、コンテンツシーン中の観客の興奮シーンのみを連続して抽出したりすることが可能である。また、これら検出した音種別や区間情報をタグとして用い、連動する他の情報を記録し、ＡＶ（Audio Visual）コンテンツのタグ検索装置等に利用することができる。

また、音識別結果として、音種別結果とその区間だけでなくフレーム尤度等の信頼度を出力して利用するようにしても良い。たとえば、音声の編集の際に信頼度が低い箇所検出した場合にビープ音等を鳴らして検索編集の手がかりとするようにしてもよい。このようにすれば、ドアの音やピストルの音など短時間音であるためにモデル化が困難である音を探索する場合に検索操作の効率化が期待される。

符号の説明

Claims

入力音信号の種別を識別する音識別装置であって、
入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するフレーム音特徴量抽出部と、
各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するフレーム尤度算出部と、
前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定する信頼度判定部と、
前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定する累積尤度出力単位時間決定部と、
前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出する累積尤度算出部と、
前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定する音種別候補判定部と、
前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出する音種別頻度算出部と、
前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する音種別区間決定部とを備える
ことを特徴とする音識別装置。
前記信頼度判定部は、前記フレーム尤度算出部で算出された各フレームの音特徴量の各音モデルに対するフレーム尤度に基づいて、前記信頼度を判定する
ことを特徴とする請求項１に記載の音識別装置。
前記信頼度判定部は、前記フレーム尤度のフレーム間での変動値に基づいて、前記信頼度を判定する
ことを特徴とする請求項２に記載の音識別装置。
前記信頼度判定部は、前記複数の音モデルに対するフレーム尤度のうちの最大値と最小値との差に基づいて、前記信頼度を判定する
ことを特徴とする請求項２に記載の音識別装置。
前記累積尤度算出手段は、前記信頼度が所定の閾値よりも小さいフレームに対しては前記フレーム尤度を累積しない
ことを特徴とする請求項２に記載の音識別装置。
前記信頼度判定部は、前記累積尤度算出部で算出された前記累積尤度に基づいて、前記信頼度を判定する
ことを特徴とする請求項１に記載の音識別装置。
前記信頼度判定部は、前記複数の音モデルに対する前記累積尤度のうちの最大値または最小値から所定差内に含まれる前記累積尤度の音モデルの個数と、前記累積尤度の変動値に基づいて、前記信頼度を判定する
ことを特徴とする請求項６に記載の音識別装置。
前記信頼度判定部は、前記累積尤度算出部で算出された前記音モデルごとの累積尤度に基づいて、前記信頼度を判定する
ことを特徴とする請求項１に記載の音識別装置。
前記信頼度判定部は、前記フレーム音特徴量抽出部で抽出される音特徴量に基づいて、
前記信頼度を判定する
ことを特徴とする請求項１に記載の音識別装置。
さらに、前記信頼度に基づいて、識別単位時間を決定する識別単位時間決定部を備え、
前記音種別頻度算出部では、前記識別単位時間に含まれる音種別の頻度を算出する
ことを特徴とする請求項１に記載の音識別装置。
入力音信号の種別を識別する音識別方法であって、
入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出し、
各音モデルに対する各フレームの音特徴量のフレーム尤度を算出し、
前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定し、
前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定し、
前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出し、
前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定し、
前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出し、
前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定する
ことを特徴とする音識別方法。
入力音信号の種別を識別する音識別方法のプログラムであって、
入力音信号を複数のフレームに分割し、フレームごとに音特徴量を抽出するステップと、
各音モデルに対する各フレームの音特徴量のフレーム尤度を算出するステップと、
前記音特徴量または前記音特徴量より導出される値に基づいて、前記フレーム尤度を累積するか否かを示す指標である信頼度を判定するステップと、
前記信頼度が所定値よりも高い場合は短く、前記信頼度が所定値よりも低い場合は長くなるように、累積尤度出力単位時間を決定するステップと、
前記複数の音モデルの各々について、前記累積尤度出力単位時間に含まれるフレームの前記フレーム尤度を累積した累積尤度を算出するステップと、
前記累積尤度が最尤となる音モデルに対応する音種別を前記累積尤度出力単位時間ごとに決定するステップと、
前記音種別候補判定部で決定された音種別の頻度を所定の識別時間単位で累積して算出するステップと、
前記音種別頻度算出部で算出された音種別の頻度に基づいて、前記入力音信号の音種別および当該音種別の時間的区間を決定するステップとをコンピュータに実行させる
ことを特徴とするプログラム。