WO2020054822A1

WO2020054822A1 - 音解析装置及びその処理方法、プログラム

Info

Publication number: WO2020054822A1
Application number: PCT/JP2019/035975
Authority: WO
Inventors: 大塚　誠
Original assignee: ＬｉＬｚ株式会社
Priority date: 2018-09-13
Filing date: 2019-09-12
Publication date: 2020-03-19
Also published as: JP6924975B2; JP6882814B2; JPWO2020054822A1; JP2021119401A

Abstract

【課題】　蓄積した多量の音データの中から教師データを効率的に生成し、特定の音関連イベントを容易に検知および検索する機械学習を用いた音解析装置を提供する。【解決手段】　特徴量生成手段１１１が音データの音フレームについて特徴量を生成し、距離計算手段１１２がイベントの音フレームをクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、タグ付け手段１２１が、当該距離に応じて複数の音フレームに対してタグ付けし、特徴量選択手段１２３が、タグ付けされた音フレームの特徴量を全特徴量ベクトルから選択し、機械学習モデル１１４が、当該選択された特徴量を入力とし、音フレーム毎のイベント（タグ）の発生確率又はタグ種別等を予測値として出力し、誤差計算手段１１８が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル１１４に入力する。

Description

音解析装置及びその処理方法、プログラム

　本発明は、機械学習を用いて音を解析する装置及びその処理方法に係り、特に、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知及び検索するための機械学習を用いた音解析装置及びその処理方法、プログラムに関する。

［従来の技術］
　例えば、７２００時間の音声データの中から、２４時間に１回程度の割合でランダムに発生する音関連イベントを見つけ出すような音解析装置を作ろうとした場合に、例えば、イベント１００回分の教師データを作成する場合には、２４００時間の録音データを端から聞くしかないものであった。

［関連技術］
　尚、関連する先行技術として、特開２００８－１２３１８０号公報「情報処理装置および方法、並びに、プログラム」（特許文献１）がある。
　特許文献１には、データの特徴を抽出するアルゴリズムを高速に構築することが示されている。

特開２００８－１２３１８０号公報

　上述したように、機械学習を用いた特定の音関連イベントを検知及び検索する音解析装置を作成するためには、長時間録音データを端から聞いて教師データを作成する地道な作業が必要であるという問題点があった。

　特許文献１には、教師データの類似度に基づいて、新規アルゴリズムの構築に用いる遺伝子に利用する構築済アルゴリズムを選択し、それを利用して第１世代の遺伝子を生成することが記載されているが、長い時間の音データからイベントについての教師データを効率的に生成できることについては記載がない。

　本発明は上記実情に鑑みて為されたもので、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知及び検索するための機械学習を用いた音解析装置及びその処理方法、プログラムを提供することを目的とする。

　上記従来例の問題点を解決するための本発明は、音を解析する音解析装置であって、音データの音フレームについて特徴量ベクトルを生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると、特徴量ベクトルに基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行うタグ付け手段と、タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものである。

　本発明は、上記音解析装置において、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。

　本発明は、上記音解析装置において、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを有し、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。

　本発明は、音を解析する音解析装置の処理方法であって、音データの音フレームについて特徴量を生成し、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行い、タグ付けされた音フレームの特徴量を全特徴量から選択し、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力するものであ。

　本発明は、上記処理方法において、学習済み機械学習モデルが、生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。

　本発明は、上記処理方法において、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。

　本発明は、音を解析する音解析装置で使用されるコンピュータプログラムであって、音解析装置を、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行うタグ付け手段と、タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段として機能させるものである。

　本発明は、上記プログラムにおいて、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。

　本発明は、上記プログラムにおいて、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを機能させ、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。

　本発明によれば、特徴量生成手段が、音データの音フレームについて特徴量を生成し、距離計算手段が、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、タグ付け手段が、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行い、特徴量選択手段が、タグ付けされた音フレームの特徴量を全特徴量から選択し、機械学習モデルが、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又はタグ種別を予測値として出力し、誤差計算手段が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する音解析装置としているので、教師データを効率的に生成できる効果がある。

　本発明によれば、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力する上記音解析装置としているので、特定の音関連イベントを容易に検知及び検索できる効果がある。

本装置の概略図である。学習ステップの概略図である。予測ステップの概略図である。教師データの高速検索・生成処理のフロー図である。クエリポイントからの距離を示す図である。各イベントの発生確率を示す図（グラフＢ）である。イベントの発生時刻を示す図である。タグとラベルの関係を示す図である。本装置の学習プロセスをまとめた概略図である。本装置における学習プロセスの応用例を示す概略図である。

　本発明の実施の形態について図面を参照しながら説明する。
［実施の形態の概要］
　本発明の実施の形態に係る音解析装置（本装置）は、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してタグ付けするタグ付け手段と、タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント（タグ）発生確率又はタグ種別等を予測値として出力する機械学習モデルと、各音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものであり、長い時間の音データからイベントについての教師データを効率的に生成できるものである。

　特に、本装置は、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するようにしているので、特定の音関連イベントを容易に検知及び検索できるものである。

［本装置：図１］
　本装置について図１を参照しながら説明する。図１は、本装置の概略図である。
　本装置（音解析装置）１は、図１に示すように、制御部１１と、記憶部１２と、インタフェース部１３とを有している。

　本装置１の制御部１１は、記憶部１２から処理プログラムを読み込み、学習ステップ、予測ステップ、解析ステップ等を実行する。これらステップの詳細については後述する。
　記憶部１２は、制御部１１で動作する処理プログラムを記憶し、音データ、その他のデータを記憶する。
　インタフェース部１３には、表示部１４、入力部１５、音入力部１６、ネットワーク２が接続している。

　表示部１４は、後述する図６～図９の画面を表示する。
　入力部１５は、タグ付け、ラベル付けを行う場合に用いられる。
　音入力部１６は、外部からの音を入力するものであり、マイク等の入力装置又は録音した音を再生する再生装置が接続する入力装置である。
　ネットワーク２は、インターネット又は社内ネットワークである。

　本装置で実行される学習ステップ、予測ステップ、解析ステップについて具体的に説明する。尚、以下に説明する手段、モデルは、プログラム等のソフトウェアによって実現されるものである。

［学習ステップ：図２］
　本装置における学習ステップについて図２を参照しながら説明する。図２は、学習ステップの概略図である。
　学習ステップは、機械学習モデルが、タグ付けされた音フレームの特徴量を入力することで出力される予測値と正解タグを基に機械学習モデルのパラメータを最適化する。この学習ステップは、繰り返し為される場合ものである。

　ここで、タグとは、特定の音が示すイベントの名称であり、ラベルは、任意の音に当該イベントの音が含まれているか否かを示すものである。
　従って、タグ付けとは、イベントに対応付けられているということで、ラベル付けとは、その音に、任意のイベントの音が含まれているか否かを対応付けることである。尚、タグ付けとラベル付けの両方が行われる場合と片方のみが行われる場合がある。
　尚、タグとラベルの具体的関係については、図８を用いて後述する。

　学習ステップは、図２に示すように、特徴量生成手段１１１が、音データの音フレーム（イベントの基準として選択されたクエリフレームと全フレーム）について特徴量ベクトルを生成する。
　距離計算手段１１２が、特徴量ベクトルからクエリフレームとその他の音フレーム（全フレーム）との距離を計算する。

　そして、タグ付け手段１２１は、距離計算手段１１２からの計算結果から距離情報に基づいて任意のフレームにタグ付けを行う。当該距離情報を参考にしながら任意のフレームに対して、そのフレームの音を聞きながら、人手で選定されたタグのタグ付けを行うようにしてもよい。また、１つのフレームに対して複数のタグのタグ付けを行ってもよい。このフレーム毎のタグ付け情報を誤差計算手段１１８に出力する。
　タグ選定手段１２２は、どのようなタグを付与するか選定するもので、人手によって選定してもよく、また複数タグの付与を選定してもよい。

　特徴量選択手段１２３は、タグ付けされたフレームに対応する特徴量を選択する。この特徴量は、正解タグが付与された特徴量として機械学習モデル１１４に入力される。
　そして、機械学習モデル１１４は、特徴量選択手段１２３から正解タグが付与された特徴量を入力し、予測値を出力する。
　誤差計算手段１１８は、正解タグ（タグ付け情報）と予測値を元に誤差を計算し、機械学習モデル１１４に出力する。

　機械学習モデル１１４は、特徴量選択手段１２３からから入力された正解タグが付与された特徴量と、誤差計算手段１１８から入力された誤差情報を基に、機械学習モデルのパラメータを最適化する。
　予測値とは、例えば、各音フレームのイベント（タグ）の発生確率又はタグ種別等である。

　機械学習モデル１１４は、予測値が二値判定であれば二値分類器となるが、予測値が多値の場合には多値分類器となる。
　機械学習モデル１１４としては、例えば、線形回帰モデル、サポートベクターマシン、ランダムフォレスト、勾配ブースティングマシン、ｋ最近傍法、Ｖｏｔｉｎｇ分類器等がある。

［予測ステップ：図３］
　予測ステップは、学習済みの機械学習モデル１１４を使用して、入力される解析対象の音データの各音フレームごとのイベント（タグ）発生確率またはタグ種別等を予測する処理である。予測ステップを推論ステップと称することがある。
　本装置における予測ステップについて図３を参照しながら説明する。図３は、予測ステップの概略図である。
　本装置における予測ステップは、特徴量生成手段１１１が、入力される音データについて特徴量ベクトルを生成する。

　そして、学習ステップで学習済みの機械学習モデル１１４が、入力される音フレームの特徴量を入力して、予測値を出力するようにしているので、特定の音関連イベントを容易に検知および検索できるものである。

［教師データ候補の高速検索と教師データの生成処理：図４］
　次に、教師データ候補を高速に検索し、教師データを生成する処理について図４を参照しながら説明する。図４は、教師データ候補の高速検索と教師データの生成処理のフロー図である。
　図４に示すように、音データについてフレーム単位で特徴量ベクトルを生成する（Ｓ１）。ここでは、基準となるクエリフレームとその他の全ての音フレームについて特徴量ベクトルが生成される。
　次に、クエリフレームを選択し（Ｓ２）、特徴量を用いて、そのクエリフレームとその他の音フレームとの距離を計算する（Ｓ３）。

　そして、距離が近い複数の音データ（教師データ候補）を再生し（Ｓ４）、イベントとのタグ、ラベル付け処理を行う（Ｓ５）。

［クエリポイントからの距離：図５］
　次に、クエリポイントからの距離について図５を参照しなから説明する。図５は、クエリポイントからの距離を示す図である。
　図５には、クエリフレームの特徴量をクエリポイントとして、その他の音フレームについて特徴量の距離を示している。
　横軸が経過時間（秒）で、縦軸が距離の長短であり、下側が近く、上側が遠くなっている。

　クエリポイントは、４００秒から６００秒の間で太い縦線で示されている。
　図５に示す折れ線グラフで下側に突出してゼロに近い（クエリフレームの特徴量との距離が近い）、特定の数のポイントを教師データの候補として抽出し、それらのポイントの音データにタグ付けを行う。

［各イベントの発生確率：図６］
　次に、各イベントの発生確率について図６を参照しながら説明する。図６は、各イベントの発生確率を示す図である。
　図６では、横軸にイベント１，２，３を示し、縦軸に発生確率を示している。

［イベントの発生時刻：図７］
　次に、イベントの発生時刻について図７を参照しながら説明する。図７は、イベントの発生時刻を示す図である。
　図７では、イベント１について、発生時刻の「分」を２０分単位で縦軸に表し、発生時刻の「秒」を６０秒単位で横軸に表している。
　図７により、イベント１が発生する時刻を「分」と「秒」との関係で直感的に把握することができる。

［タグとラベルの関係：図８］
　次に、音データに対してタグとラベルの関係について図８を参照しながら説明する。図８は、タグとラベルの関係を示す図である。
　図８の上側に示された音データに対して、動物の鳴き声として「牛」と「犬」をタグとした場合に、音データのフレームにそれらの音が含まれている場合は「〇」とし、対応する音が含まれていない場合は「×」とする。この「〇」「×」をつけることが、ラベル付けと呼ぶ。また、ラベル付けされていない場合は「－」を付している。
　そして、各フレームに対して各タグのラベル付けをすることを「タグ付け」と呼んでいる。
　尚、音データのフレームには、牛又は犬のいずれの鳴き声が含まれていない場合があり、また、両方の鳴き声が含まれている場合もある。

［本装置における学習プロセスのまとめ：図９］
　本装置における学習プロセスのまとめについて図９を参照しながら説明する。図９は、本装置の学習プロセスをまとめた概略図である。
　図９に示すように、本装置は、学習用音データから特徴量をaudio特徴量抽出手段１１１ａが抽出し、各フレームの特徴量を算出して記憶する。

　また、クエリ音データからaudio特徴量抽出手段１１１ｂが特徴量を抽出し、クエリ音の特徴量を算出して記憶する。尚、audio特徴量抽出手段１１１ａ，１１１ｂは、図２の特徴量生成手段１１１に相当している。
　そして、距離計算手段１１２が、クエリ音の特徴量と各フレームの特徴量の距離情報を計算して記憶する。距離計算手段１１２は、図２の距離計算手段１１２に相当している。

　更に、ユーザがタグ選定を行うとともに、学習用データと上記距離情報を用いて、各種タグ情報を基にタグ付け（タグ付与）を行い、各フレームのタグ付け情報を記憶する。タグ選定は、図２のタグ選定手段１２２で為され、タグ付けは、図２のタグ付け手段１２１で為される。

　そして、各フレームの特徴量と各フレームのタグ付け情報を基に特徴量選択手段１２３でタグ付けされた特徴量のみを選択し、タグ付けされたフレームの特徴量を出力する。そのタグ付けされたフレームの特徴量を教師データの候補として入力し、モデル１１４は、音フレーム毎のイベント（タグ）発生確率またはタグ種別等を予測値として出力する。誤差計算手段１１８は、各音フレームの予測値と正解タグとの誤差を計算してモデル１１４に出力する。モデル１１４は、図２の機械学習モデル１１４が相当している。

　図９では、タグ付与を距離計算手段１１２の後段で行うようにしており、プログラムで行ってもよいし、人手によって行ってもよい。
　人手による場合は、準備した音に対して各音フレームの特徴量の距離情報を見ながら、タグ付けを行う必要がある。次に説明する応用例では、音検索の準備を効率的に行うために、自分が探したいクエリタグに近い、第三者（他人）がタグ付けしたタグ付け情報群（タグとそれに紐づく音特徴量）を利用し、タグ付け作業を更に軽減できるものとしている。
　ここで、ユーザとは、本装置を利用して音検索の処理を行う者であり、第三者（他人又は他のユーザ）とは、本装置を利用して既に音データにタグ付けを行った者である。

［応用例：音探索プラットフォームの提供：図１０］
　次に、本装置の応用例について図１０を参照しながら説明する。図１０は、本装置における学習プロセスの応用例を示す概略図である。
　図１０に示すように、他のユーザが独自にタグとそれに紐づく音特徴量のデータセット（教師データの候補となるデータセット：タグ名称でタグ付けされたaudio特徴量データセット／タグ名称）を、ネットワークを利用して記憶し、また、ユーザ本人がクエリタグの入力を行い、クエリタグ名称でタグ付けされた特徴量データセットも記憶する。

　次に、タグ名称のｔｅｘｔ（テキスト）特徴量を距離計算手段２１１で距離計算し、ソート手段２１２が距離の近いタグ名称順にソートし、推薦タグリストを生成する。距離計算手段２１１は、図２，図９の距離計算手段１１４と同様のものである。
　そして、ユーザは、タグ名称を選定し、選定したタグ名称に対応する各フレームの音特徴量とタグ付け情報（教師データ）に基づいてモデル１１４で学習させ、予測値を出力する。

　更に、ユーザは、学習させたモデル１１４について、ユーザが自分でタグ付けした独自データセット（クエリタグ名称でタグ付けされたaudio特徴量データセット／クエリタグ名称）を用いて、教師データについて答え合わせを行い、教師データの妥当性を確認するようにし、確認の結果、教師データの妥当性が低い場合には、その独自データセット（各フレームの音特徴量＋タグ付け情報）の一部を教師データとして利用して学習させるようにしてもよい。

　図１０を具体的に説明すると、例えば、ユーザが「dogs」というタグで音検索器（本装置）を作りたい場合は、ユーザは過去に作ったユーザのタグ付け情報群のリストから自分が探したいクエリタグに近いタグ付け情報群を選び、自分の音検索器の学習データとして使うことができる。

　タグ群の名称は、ユーザによって付け方がまちまちである。例えば、犬のタグでも、「dogs」「dog」「犬」などを付けるものである。そのため、タグ名を自然言語の特徴量として扱い、ユーザが作りたいクエリタグ「dogs」とタグ名の特徴量空間の距離が近いタグ名を上位からリストアップすることでタグ名を選びやすくものである。例えば、「dog」「犬」が推薦タグリストの上位に出てくるようになる。

　図１０に示す手法によって作成された音検索器のパフォーマンスは、ユーザが独自にタグ付けした独自データセットを使って答え合わせを行う。
　もし、パフォーマンスが出ない場合には、自分がタグ付けした独自データセットの一部も教師データに含めるようにする。

　本装置では、各フレームの音の特徴量空間の距離情報に基づき、タグ付けすべきフレームを探しやすくするものであるが、図１０の応用例では、他人が作成したタグ付け情報群を学習データとして流用するために、自然言語であるタグ情報の特徴量空間を使って、タグ付けすべきフレームを探し訳すしたものである。

　尚、図１０の学習プロセスの応用例を、本装置の図９で説明した学習プロセスに追加して、両方の学習プロセスを選択して利用できるようにしてもよい。

［実施の形態の効果］
　本装置によれば、特徴量生成手段１１１が音データの音フレームについて特徴量を生成し、距離計算手段１１２がイベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、タグ付け手段１２１が、当該距離に応じて複数の音フレームに対してタグ付けし、特徴量選択手段１２３が、タグ付けされた音フレームの特徴量を全特徴量から選択し、機械学習モデル１１４が、当該選択された特徴量を入力とし、音フレーム毎のイベント（タグ）の発生確率又はタグ種別等を予測値として出力し、誤差計算手段１１８が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル１１４に入力するようにしているので、蓄積した大量の音データの中から機械学習に必要となる教師データを効率的に生成できる効果がある。

　また、本装置によれば、学習済み機械学習モデル１１４が、特徴量生成手段１１１で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力することで、特定の音関連イベントを容易に検知及び検索することができる効果がある。

　また、本装置の応用例によれば、他のユーザが独自にタグ付けした各フレームのaudio特徴量とタグ付け情報（音特徴量のデータセット）について、タグ名称のｔｅｘｔ特徴量を距離計算手段２１１で距離計算し、ソート手段２１２が距離の近いタグ名称順にソートし、推薦タグリストを生成し、当該推薦タグリストからタグ名称が選定された音特徴量のデータセットを教師データとして機械学習モデル１１４に学習させるようにしているので、他のユーザがタグ付けされた音特徴量のデータセットを有効に利用できる効果がある。

　本発明は、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知および検索することができる機械学習を用いた音解析装置及びその処理方法、プログラムに好適である。

　１…音解析装置（本装置）、　２…ネットワーク、　１１…制御部、　１２…記憶部、　１３…インタフェース部、　１４…表示部、　１５…入力部、　１６…音入力部、　１１１…特徴量生成手段、　１１２…距離演算手段　１１４…機械学習モデル、　１１５…主成分分析手段、　１１６…距離演算手段、　１１７…表示処理手段、　１１８…誤差計算手段、　１２１…タグ付け手段、　１２２…タグ選定手段、　１２３…特徴量選択手段

Claims

　音を解析する音解析装置であって、
　音データの音フレームについて特徴量を生成する特徴量生成手段と、
　イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、
　当該距離に応じて複数の音フレームに対して前記イベントのタグ付けを行うタグ付け手段と、
　前記タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
　当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
　前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段とを有する音解析装置。
　学習済み機械学習モデルが、特徴量生成手段で生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項１記載の音解析装置。
　教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、
　前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを有し、
　機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項１又は２記載の音声解析装置。
　音を解析する音解析装置の処理方法であって、
　音データの音フレームについて特徴量を生成し、
　イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、
　当該距離に応じて複数の音フレームに対して前記イベントのタグ付けを行い、
　前記タグ付けされた音フレームの特徴量を全特徴量から選択し、
　当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、
　前記音フレーム予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する処理方法。
　学習済の機械学習モデルが、生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項４記載の処理方法。
　教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、
　前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、
　機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項４又は５記載の処理方法。
　音を解析する音解析装置で使用されるコンピュータプログラムであって、
　前記音解析装置を、
　音データの音フレームについて特徴量を生成する特徴量生成手段と、
　イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の類似性の距離を計算する距離計算手段と、
　当該距離に応じて複数の音フレームに対して前記イベントのタグ付けを行うタグ付け手段と、
　前記タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
　当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
　前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段として機能させるプログラム。
　学習済みの機械学習モデルが、特徴量生成手段で生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項７記載のプログラム。
　教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、
　前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを機能させ、
　機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項７又は８記載のプログラム。