JPWO2020059084A1

JPWO2020059084A1 - 学習装置およびパターン認識装置

Info

Publication number: JPWO2020059084A1
Application number: JP2020547549A
Authority: JP
Inventors: 達也小松; 玲史近藤; 咲子美島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2021-08-30
Anticipated expiration: 2038-09-20
Also published as: US20220028372A1; US11948554B2; WO2020059084A1; JP7040628B2

Abstract

音響特徴抽出手段８２は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する。言語ベクトル算出手段８３は、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する。類似度算出手段８４は、音響特徴と言語ベクトルとの類似度を算出する。パラメータ更新手段８５は、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新する。

Description

本発明は、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出するためのパラメータを学習する学習装置、学習方法および学習プログラム、並びに、与えられた音響パターンの基となった音響信号の発生源を識別するパターン認識装置、パターン認識方法およびパターン認識プログラムに関する。

非特許文献１には、受音した音響信号を、予め定義した音響イベントに分類し、分類結果を出力する装置と、音響信号を音響イベントに分類するための識別器の学習方法とが記載されている。

ここで、「音響信号」とは、機器（例えば、マイクロフォン等）によって収録された音の信号である。

また、「音響イベント」とは、音響信号の発生源の属性である。

Rui Lu, Zhiyao Duan, "BIDIRECTIONAL GRU FOR SOUND EVENT DETECTION", [online], ２０１７年, Detection and Classification of Acoustic Scenes and Event, ［２０１８年８月３１日検索］、インターネット、<URL: https://www.cs.tut.fi/sgn/arg/dcase2017/documents/challenge_technical_reports/DCASE2017_Lu_137.pdf>

音響イベントが異なっていていても、発生した音が類似している場合がある。換言すれば、音響イベントが異なっていていても、音響信号の類似度が高い場合がある。そのような場合、音響イベントの識別精度が低下するという問題がある。例えば、非特許文献１に記載された技術によって、「悲鳴」および「歓声」という２種類の音響イベントのいずれかに音響信号を分類することを考える。「悲鳴」および「歓声」は、異なる音響イベントである。しかし、悲鳴から得られる音響信号も、歓声から得られる音響信号も、人間の大きな声から得られる音響信号であり、類似した音響信号となる。そのため、悲鳴から得られる音響信号から抽出される音響特徴量、および、歓声から得られる音響信号から抽出される音響特徴量も類似したものとなる。その結果、非特許文献１に記載された技術では、悲鳴から得られる音響信号や歓声から得られる音響信号に応じた音響イベントの識別（分類）の精度が低下する。

そこで、本発明は、与えられた情報から音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる学習装置、学習方法および学習プログラムを提供することを目的とする。

また、本発明は、与えられた情報から音響イベントを高い精度で識別することができるパターン認識装置、パターン認識方法およびパターン認識プログラムを提供することを目的とする。

本発明による学習装置は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出手段と、音響特徴と言語ベクトルとの類似度を算出する類似度算出手段と、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備えることを特徴とする。

本発明によるパターン認識装置は、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備えることを特徴とする。

本発明による学習方法は、コンピュータが、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出処理、音響特徴と言語ベクトルとの類似度を算出する類似度算出処理、および、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行することを特徴とする。

本発明によるパターン認識方法は、コンピュータが、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行することを特徴とする。

本発明による学習プログラムは、コンピュータに、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出処理、音響特徴と言語ベクトルとの類似度を算出する類似度算出処理、および、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行させることを特徴とする。

本発明によるパターン認識プログラムは、コンピュータに、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行させることを特徴とする。

本発明によれば、与えられた情報から音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる。

また、本発明によれば、与えられた情報から音響イベントを高い精度で識別することができる。

第１の実施形態におけるパターン認識システムの構成例を示すブロック図である。学習部の構成例を示すブロック図である。学習部がパラメータを学習する際の処理経過の例を示すフローチャートである。音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過の例を示すフローチャートである。本発明の学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。本発明のパターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。第２の実施形態におけるパターン認識システムの構成例を示すブロック図である。第２の実施形態における学習部の構成例を示すブロック図である。特徴抽出部の構成例を示すブロック図である。１つの階層に着目した場合における学習部内のその階層に対応する要素の処理経過の例を示すフローチャートである。第２の実施形態において、学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。第２の実施形態において、パターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。各実施形態におけるパターン認識システムに係るコンピュータの構成例を示す概略ブロック図である。本発明の学習装置の概要を示すブロック図である。本発明のパターン認識装置の概要を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
以下の説明では、本発明の学習装置（与えられた情報から音響特徴を抽出するためのパラメータを学習する学習装置）と、本発明のパターン認識装置（与えられた情報に応じた音響イベントを識別するパターン認識装置）とを包含するパターン認識システムを例にして説明する。ただし、本発明の学習装置と、本発明のパターン認識装置とが独立した装置であってもよい。また、上記の「与えられた情報」とは、後述の「音響パターン」を意味する。なお、パターン認識とは、音響パターンに応じた音響イベントを識別することを意味し、パターン認識装置は、識別装置と称することもできる。これらの点は、後述の第２の実施形態でも同様である。

図１は、第１の実施形態におけるパターン認識システムの構成例を示すブロック図である。第１の実施形態のパターン認識システム１００は、学習部１０１と、言語ベクトルモデル記憶部１０２と、パラメータ記憶部１０３と、音響特徴ベクトル抽出部１０４と、類似度算出部１０５と、識別部１０６とを備える。

学習部１０１と、言語ベクトルモデル記憶部１０２と、パラメータ記憶部１０３とを含む部分が、学習装置に相当する。また、言語ベクトルモデル記憶部１０２と、パラメータ記憶部１０３と、音響特徴ベクトル抽出部１０４と、類似度算出部１０５と、識別部１０６とを含む部分が、パターン認識装置に相当する。図１に示す例では、パターン認識システム１００内で、学習装置とパターン認識装置とが、言語ベクトルモデル記憶部１０２と、パラメータ記憶部１０３とを共有する場合を示している。

学習部１０１には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。ここで、音響パターンについて説明する。「音響パターン」とは、音響信号に対する処理の結果得られる情報である。例えば、マイクロフォン等の音響センサで収録したアナログ音響信号をＡＤ変換（Analog to Digital Conversion）することによって得られるデジタル信号系列[x(1),・・・,x(T)]や、そのデジタル信号系列[x(1),・・・,x(T)]を短時間フーリエ変換やConstant-Q変換等によって周波数解析した結果として得られる二次元配列を、音響パターンとして用いればよい。ここで、T は、所定の時間幅（例えば、１〜１０秒程度）であり、検出したい音響イベントの時間幅に対応した値をT として設定すればよい。音響パターンは、ベクトル（一次元配列）であっても、二次元以上の配列であってもよい。音響パターンは、音響信号が有限のベクトルまたは二次元以上の配列になるように音響信号に処理を加えた結果であると言うことができる。

音響パターンX_n に対応付けられたラベルL_n とは、音響パターンX_n の基となった音響信号の音響イベントを示すラベルであり、文字列で表される。音響イベントは、既に説明したように、音響信号の発生源の属性である。

音響パターンX_n とラベルL_n との組{X_n, L_n}は、音響イベントが既知である音響信号に基づいて、予め導出されているものとする。

学習部１０１には、音響パターンX_n とラベルL_n との組{X_n, L_n}が入力され、学習部１０１は、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。ここで、“n ”は、学習データセット（音響パターンとラベルとの組）のインデックス番号である。入力される学習データセットの数をN とすると、n は、１からN までの整数となる。

パラメータ記憶部１０３は、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを記憶する記憶装置である。初期状態では、パラメータ記憶部１０３は、予め定められたパラメータΘの初期値を記憶している。

学習部１０１は、入力された音響パターンX_n とラベルL_n との組{X_n, L_n}を用いて、パラメータΘを学習し、パラメータ記憶部１０３に記憶されているパラメータを、学習によって得たパラメータΘに更新する。

図２は、学習部１０１の構成例を示すブロック図である。図２では、学習部１０１とともに、言語ベクトルモデル記憶部１０２およびパラメータ記憶部１０３も図示している。学習部１０１は、音響特徴ベクトル抽出部１１１と、言語ベクトル算出部１１２と、類似度算出部１１３と、パラメータ更新部１１４とを含む。

なお、学習部１０１内の音響特徴ベクトル抽出部１１１は、学習装置に相当する部分に含まれるので、パターン認識装置に相当する部分に含まれる音響特徴ベクトル抽出部１０４（図１参照）とは区別し、図２に示すように符号“１１１”を用いて表す。同様に、学習部１０１内の類似度算出部１１３は、学習装置に相当する部分に含まれるので、パターン認識装置に相当する部分に含まれる類似度算出部１０５（図１参照）とは区別し、図２に示すように符号“１１３”を用いて表す。

音響特徴ベクトル抽出部１１１は、音響パターンX_n を入力とし、パラメータ記憶部１０３に記憶されているパラメータΘを用いて、音響パターンX_n から、音響特徴ベクトルz_n を抽出し、その音響特徴ベクトルz_n を出力する。音響パターンから音響特徴ベクトルを抽出するためのパラメータΘは、例えば、ニューラルネットワークのパラメータであるが、他のパラメータであってもよい。また、音響特徴ベクトル抽出部１１１は、ベクトルまたは二次元以上の配列で表される音響パターンから、パラメータΘを用いて音響特徴ベクトルを抽出する構成であればよい。また、音響特徴ベクトルを抽出する方法は、非特許文献１に記載された方法でも、あるいは、他の方法でもよい。

言語ベクトルモデル記憶部１０２は、文字列で表されたラベルからベクトルを算出するためのモデル（以下、言語ベクトルモデルと記す。）を記憶する記憶装置である。また、言語ベクトルモデルに基づいてラベルから算出されたベクトルは、言語ベクトルと称される。

言語ベクトル算出部１１２は、音響パターンX_n の基となった音響信号の音響イベントを示すラベルL_n から、言語ベクトルモデルに基づいて、言語ベクトルw_n を算出し、その言語ベクトルw_n を出力する。

ここで、言語ベクトル算出部１１２は、２つのラベルの意味が近いほど、その２つのラベルそれぞれから得られた言語ベクトルの距離が小さくなり、２つのラベルの意味が遠いほど、その２つのラベルそれぞれから得られた言語ベクトルの距離が大きくなるように、ラベルから言語ベクトルを算出する。このような言語ベクトルの算出技術として、例えば、“ｗｏｒｄ２ｖｅｃ”、“ｓｋｉｐｇｒａｍ”、“ＧｌｏＶｅ”等の技術を用いてよい。

例えば、ラベル「悲鳴」とラベル「叫び声」の意味は近い。従って、言語ベクトル算出部１１２がラベル「悲鳴」から算出した言語ベクトルと、言語ベクトル算出部１１２がラベル「叫び声」から算出した言語ベクトルとの距離は小さくなる。また、例えば、ラベル「悲鳴」とラベル「歓声」の意味は遠い。従って、言語ベクトル算出部１１２がラベル「悲鳴」から算出した言語ベクトルと、言語ベクトル算出部１１２がラベル「歓声」から算出した言語ベクトルとの距離は大きくなる。

ここで、音響特徴ベクトル抽出部１１１によって抽出される音響特徴ベクトルz_n の次元数と、言語ベクトル算出部１１２によって算出される言語ベクトルw_n の次元数とは、等しい必要がある。すなわち、音響特徴ベクトルz_n は、言語ベクトルw_n の次元数と等しい次元数のベクトルである。

類似度算出部１１３は、音響特徴ベクトルz_n と言語ベクトルw_n との類似度d(z_n,w_n)を算出し、その類似度を出力する。d(,)は、類似度を求めるための類似度関数である。類似度関数として、例えば、コサイン類似度、平均二乗誤差（ＭＳＥ：Mean Squared Error）や平均絶対値誤差（ＭＡＥ：Mean Absolute Error ）等の任意の誤差関数が用いられる。

パラメータ更新部１１４は、その誤差関数を用いて、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。

パラメータ記憶部１０３が初期状態で記憶しているパラメータΘの初期値は、例えば、乱数やその他のデータから予め学習したパラメータである。

パラメータ更新部１１４は、上記の誤差関数に基づいて確率的勾配降下法等のニューラルネットワークの学習方法によって、パラメータΘを学習する。このとき、パラメータ更新部１１４は、音響パターンX_n から抽出された音響特徴ベクトルz_n と、その音響パターンX_n と組をなすラベルから算出された言語ベクトルw_n との類似度d(z_n,w_n)が大きくなるように、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。

パラメータ更新部１１４は、パラメータΘを学習すると、パラメータ記憶部１０３に記憶されているパラメータを、新たに学習したパラメータΘに更新する。

パラメータ記憶部１０３に記憶されているパラメータが更新されると、音響特徴ベクトル抽出部１１１は、更新後のパラメータを用いて、再度、音響特徴ベクトルz_n を抽出する。パラメータΘは、類似度d(z_n,w_n)が大きくなるように学習されている。このパラメータを用いて抽出された音響特徴ベクトルは、ラベルの意味的な距離を算出可能なベクトルと同一空間上のベクトルとして抽出される。そして、この音響特徴ベクトルは、学習時に用いられたラベルとの意味的な距離を反映したベクトルとなっている。

音響特徴ベクトル抽出部１１１がパラメータ記憶部１０３に記憶されているパラメータを用いて音響特徴ベクトルz_n を抽出する処理、類似度算出部１１３が類似度d(z_n,w_n)を算出する処理、パラメータ更新部１１４がパラメータΘを学習し、パラメータ記憶部１０３に記憶されているパラメータを、新たに学習したパラメータΘに更新する処理は、所定の収束条件を満たすまで繰り返される。収束条件として、例えば、上記の処理の繰り返し数が所定数に達したという条件や、類似度d(z_n,w_n)が所定値以上になったという条件等を用いることができる。

次に、図１に示す音響特徴ベクトル抽出部１０４、類似度算出部１０５、識別部１０６について説明する。なお、パラメータ記憶部１０３には、学習部１０１によって学習されたパラメータΘが記憶されているものとする。

音響特徴ベクトル抽出部１０４には、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。音響特徴ベクトル抽出部１０４に入力される音響パターンX_* は、音響イベントが不明である音響信号に基づいて、予め導出されているものとする。音響信号に基づいて音響パターンを求める方法の一例については、既に説明しているので、ここでは説明を省略する。

音響特徴ベクトル抽出部１０４は、パラメータ記憶部１０３に記憶されているパラメータΘを用いて、音響パターンX_* から、音響特徴ベクトルz_* を抽出する。音響特徴ベクトル抽出部１０４がパラメータΘを用いて音響パターンから音響特徴ベクトルを抽出する動作は、音響特徴ベクトル抽出部１１１（図２参照）がパラメータΘを用いて音響パターンから音響特徴ベクトルを抽出する動作と同様である。

類似度算出部１０５は、識別結果の候補として予め定められた音響イベントのラベルを複数個、予め保持している。類似度算出部１０５は、そのラベル毎に、言語ベクトルモデル記憶部１０２に記憶されている言語ベクトルモデルに基づいて、ラベルから言語ベクトルを算出する。類似度算出部１０５は、さらに、そのラベル毎に、算出した言語ベクトルと、音響特徴ベクトル抽出部１０４によって抽出された音響特徴ベクトルz_* との類似度を算出する。なお、類似度算出部１０５が言語ベクトルと音響特徴ベクトルとの類似度を算出する動作は、類似度算出部１１３（図２参照）が言語ベクトルと音響特徴ベクトルとの類似度を算出する動作と同様である。識別結果の候補として予め定められた音響イベントのラベルのインデックス番号をm で表す。識別結果の候補として予め定められた音響イベントのラベルの総数をM とすると、m は、１からM までの整数となる。類似度算出部１０５によってm 番目のラベルから算出された言語ベクトルをw(m)と記す。

なお、音響特徴ベクトル抽出部１０４によって抽出される音響特徴ベクトルz_* の次元数と、類似度算出部１０５がラベル毎に算出する各言語ベクトルの次元数とは、等しい必要がある。すなわち、音響特徴ベクトルz_* は、類似度算出部１０５がラベル毎に算出する各言語ベクトルの次元数と等しい次元数のベクトルである。

類似度算出部１０５は、ラベル毎に算出した類似度d(z_*,w(m)) を要素とするベクトルR_*（以下、類似度ベクトルR_* と記す。）を生成する。

例えば、識別結果の候補として予め定められた音響イベントのラベルが、「音楽」、「音声」および「銃声」の３つであったとする。この場合、w(1)，w(2)，w(3)は、それぞれ、「音楽」から算出された言語ベクトル、「音声」から算出された言語ベクトル、「銃声」から算出された言語ベクトルである。そして、類似度ベクトルR_* は、３つの要素を持つベクトル[d(z_*, w(1)),d(z_*, w(2)),d(z_*, w(3))]と表現される。

類似度算出部１０５は、類似度ベクトルR_* を識別部１０６に送る。

識別部１０６は、類似度ベクトルR_* に基づいて、音響パターンX_* に応じた音響イベントのラベルを識別する。識別部１０６は、例えば、識別結果の候補として予め定められた音響イベントのラベルのうち、類似度ベクトルR_* の要素の中で最大の要素に対応するラベルを、音響パターンX_* に応じた音響イベントのラベルL_* として決定してもよい。

また、識別結果として１つのラベルL_* を決定するのではなく、識別部１０６は、類似度ベクトルR_* の個々の要素に対応する個々のラベルを、類似度ベクトルR_* の要素の値の降順にソートし、類似度ベクトルR_* の要素の値の降順にソートした各ラベルを、識別結果として出力してもよい。

また、識別部１０６は、類似度ベクトルR_* をサポートベクトルマシンやニューラルネットワーク等の識別器に適用することによって、音響パターンX_* に応じた音響イベントのラベルL_* を識別してもよい。この場合、識別器を、予め、音響パターンX_n とラベルL_n との組等を用いて、予め機械学習によって学習しておけばよい。

音響特徴ベクトル抽出部１１１と、言語ベクトル算出部１１２と、類似度算出部１１３と、パラメータ更新部１１４とを含む学習部１０１は、例えば、学習プログラムに従って動作するコンピュータのＣＰＵ（Central Processing Unit ）によって実現される。この場合、例えば、ＣＰＵが、コンピュータのプログラム記憶装置等のプログラム記録媒体から学習プログラムを読み込み、学習プログラムに従って、音響特徴ベクトル抽出部１１１と、言語ベクトル算出部１１２と、類似度算出部１１３と、パラメータ更新部１１４とを含む学習部１０１として動作すればよい。

また、音響特徴ベクトル抽出部１０４、類似度算出部１０５および識別部１０６は、例えば、パターン認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、例えば、ＣＰＵが、コンピュータのプログラム記憶装置等のプログラム記録媒体からパターン認識プログラムを読み込み、パターン認識プログラムに従って、音響特徴ベクトル抽出部１０４、類似度算出部１０５および識別部１０６として動作すればよい。

パラメータ記憶部１０３および言語ベクトルモデル記憶部１０２は、例えば、コンピュータが備える記憶装置によって実現される。

次に、第１の実施形態の処理経過について説明する。図３は、学習部１０１がパラメータΘを学習する際の処理経過の例を示すフローチャートである。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部１０３は、予め定められたパラメータΘの初期値を記憶しているものとする。

まず、学習部１０１に、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。

すると、言語ベクトル算出部１１２は、言語ベクトルモデルに基づいて、ラベルL_n から言語ベクトルw_n を算出する（ステップＳ１）。

また、音響特徴ベクトル抽出部１１１は、パラメータ記憶部１０３に記憶されているパラメータΘを用いて、入力された音響パターンX_n から音響特徴ベクトルz_n を抽出する（ステップＳ２）。

次に、類似度算出部１１３は、ステップＳ２で抽出された音響特徴ベクトルz_n と、ステップＳ１で算出された言語ベクトルw_n との類似度d(z_n,w_n)を算出する（ステップＳ３）。

パラメータ更新部１１４は、類似度算出部１１３によって算出される類似度d(z_n,w_n)が大きくなるように、パラメータΘを学習し、パラメータ記憶部１０３に記憶されているパラメータΘを、学習したパラメータΘに更新する（ステップＳ４）。

そして、パラメータ更新部１１４は、収束条件が満たされたか否かを判定する（ステップＳ５）。収束条件が満たされていない場合（ステップＳ５のＮｏ）、学習部１０１は、ステップＳ２〜Ｓ５の処理を繰り返す。収束条件が満たされている場合（ステップＳ５のＹｅｓ）、学習部１０１は、パラメータΘの学習を終了する。収束条件の例として、ステップＳ２〜Ｓ５の繰り返し数が所定数に達したという条件や、ステップＳ３で算出された類似度d(z_n,w_n)が所定値以上になったという条件等を用いることができる。

図４は、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力された場合に、その音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過の例を示すフローチャートである。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部１０３は、学習部１０１によって更新されたパラメータΘを記憶しているものとする。

まず、音響特徴ベクトル抽出部１０４に、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。

すると、音響特徴ベクトル抽出部１０４は、パラメータ記憶部１０３に記憶されているパラメータΘを用いて、入力された音響パターンX_* から音響特徴ベクトルz_* を抽出する（ステップＳ１１）。

次に、類似度算出部１０５は、識別結果の候補として予め定められた音響イベントのラベル毎に、ラベルから言語ベクトルw(m)を算出する。そして、類似度算出部１０５は、ラベル毎に、音響特徴ベクトルz_* と言語ベクトルw(m)との類似度を算出する（ステップＳ１２）。

類似度算出部１０５は、ステップＳ１２でラベル毎に算出した類似度を要素とする類似度ベクトルR_* を生成する（ステップＳ１３）。

識別部１０６は、その類似度ベクトルR_* に基づいて、入力された音響パターンX_* に応じた音響イベントのラベルを識別する（ステップＳ１４）。

本実施形態によれば、パラメータ更新部１１４は、音響特徴ベクトルz_n と言語ベクトルw_n との類似度d(z_n,w_n)が大きくなるように、パラメータΘを学習し、パラメータ記憶部１０３に記憶されているパラメータを、学習したパラメータΘに更新する。そして、そのパラメータを用いて音響パターンから抽出される音響特徴ベクトルは、ラベルとの意味的な距離を反映したベクトルとなっている。本実施形態における音響特徴ベクトル抽出部１０４（図１参照）は、そのような音響特徴ベクトルを抽出することができる。例えば、類似する音響パターンが２つ存在し、一方の音響パターンに対応する音響イベント（Ａとする。）と、もう一方の音響パターンに対応する音響イベントとは類似していないとする。この場合、一方の音響パターンから抽出される音響特徴ベクトルは、音響イベントＡのラベルとの意味的な距離が小さいベクトルとなり、もう一方の音響パターンから抽出される音響イベントベクトルは、音響イベントＡのラベルとの意味的な距離が大きいベクトルになる。このように、音響パターンが類似していたとしても、正解となるラベル応じて異なる音響特徴ベクトルが抽出される。従って、入力された音響パターンX_* から音響イベントのラベルを識別する際の識別精度を高くすることができる。

従って、本実施形態では、与えられた音響パターンから音響イベントを識別する際の識別精度を向上させることができるパラメータΘを学習することができる。そして、与えられた音響パターンから音響イベントを高い精度で識別することができる。

次に、第１の実施形態の変形例を説明する。

上記の第１の実施形態では、パターン認識システム１００（図１参照）内におけるパターン認識装置に相当する部分が、類似度算出部１０５（図１参照）を備える構成を示した。パターン認識システム１００が類似度算出部１０５を備えない構成であってもよい。この場合、類似度算出部１０５が設けられていないので、類似度ベクトルR_* は生成されなくてよい。

また、この場合、識別部１０６は、音響特徴ベクトル抽出部１０４が音響パターンX_* から抽出した音響特徴ベクトルz_* を識別器に適用することによって、音響パターンX_* に応じた音響イベントのラベルL_* を識別すればよい。この識別器は、音響パターンX_n とラベルL_n との組等を用いて、予め機械学習によって学習しておけばよい。その他の点は、第１の実施形態と同様である。

この場合でも、音響特徴ベクトルz_* は、ラベルとの意味的な距離を反映したベクトルとなっているので、上記と同様の効果が得られる。

また、第１の実施形態では、本発明の学習装置と、本発明のパターン認識装置とを包含するパターン認識システム１００（図１参照）を示した。本発明の学習装置と、本発明のパターン認識装置とが、それぞれ独立した装置であってもよい。

図５は、本発明の学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。図１に示す要素と同様の要素については、図１と同一の符号を付し、説明を省略する。学習装置１５０は、学習部１０１と、言語ベクトルモデル記憶部１０２と、パラメータ記憶部１０３とを備える。学習部１０１は、図２に示すように、音響特徴ベクトル抽出部１１１と、言語ベクトル算出部１１２と、類似度算出部１１３と、パラメータ更新部１１４とを含む。これらの各要素は、上記の第１の実施形態で説明した各要素と同様であり、説明を省略する。図５に示す学習装置１５０によっても、与えられた音響パターンから音響イベントを識別する際の識別精度を向上させることができるパラメータΘを学習することができる。

図６は、本発明のパターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。図１に示す要素と同様の要素については、図１と同一の符号を付し、説明を省略する。パターン認識装置１６０は、音響特徴ベクトル抽出部１０４と、類似度算出部１０５と、識別部１０６と、パラメータ記憶部１０３Ｓと、言語ベクトルモデル記憶部１０２とを備える。パラメータ記憶部１０３Ｓは、学習装置で学習されたパラメータΘを記憶する記憶装置である。例えば、図５に示す学習装置１５０で学習され、図５に示すパラメータ記憶部１０３に記憶されたパラメータを、パターン認識装置１６０のパラメータ記憶部１０３Ｓにコピーすればよい。図６に示すパターン認識装置１６０によっても、与えられた音響パターンから音響イベントを高い精度で識別することができる。

実施形態２．
第２の実施形態では、パラメータの学習のために与えられるラベルは、音響イベントのカテゴリの階層毎に定められたラベルである。第２の実施形態では、まず、音響イベントのカテゴリの階層毎に定められたラベルについて、具体例を示して説明する。

音響イベントとして、（Ａ）「男性の悲鳴」、（Ｂ）「男性の歓声」、（Ｃ）「女性の悲鳴」、（Ｄ）「ギターロック音楽」を考える。この場合、（Ａ），（Ｂ），（Ｃ）は、広い意味では、全て「人間の声」というカテゴリに該当する。また、（Ｄ）は、広い意味では、「音楽」というカテゴリに該当する。また、（Ａ），（Ｂ）は、「人間の声」の下位の、「男声」というカテゴリに該当し、（Ｃ）は、「人間の声」の下位の、「女声」というカテゴリに該当する。そして、（Ａ）は、「男声」の下位の、「男性の悲鳴」に該当する。また、（Ｄ）は、「音楽」の下位の「ロック音楽」に該当し、さらに「ロック音楽」の下位の「ギターロック音楽」に該当する。

上記の例から分かるように、意味の広さでカテゴリを階層化することができる。カテゴリの意味が広いほど上位の階層となり、カテゴリの意味が狭いほど下位の階層となる。そして、カテゴリの階層毎に、ラベルとなる文字列を定めることができる。従って、音響イベントのカテゴリの階層毎に定められたラベルを、学習に用いるラベルとすることができる。例えば、上記の（Ａ）のラベルL は、L=｛人間の声、男声、男性の悲鳴｝と表すことができる。上記の（Ｂ）のラベルL は、L=｛人間の声、男声、男性の歓声｝と表すことができる。上記の（Ｃ）のラベルL は、L=｛人間の声、女声、女性の悲鳴｝と表すことができる。上記の（Ｄ）のラベルL は、L=｛音楽、ロック音楽、ギターロック音楽｝と表すことができる。第２の実施形態では、このように階層構造を有するラベルを学習に用いる。また、識別結果として得られるラベルも、階層構造を有する。ここでは、階層の数を“３”としたが、任意の粒度で階層の数を定めてもよい。そして、学習に用いるラベルでは、階層毎に、階層に応じた文字列が定められていればよい。また、いずれのラベルでも、カテゴリの階層の数は等しく定められる。

以下の説明では、ラベルが３階層で表される場合を例にして説明する。すなわち、各ラベルにおいて、カテゴリの階層の数が３である場合を例にして説明する。ただし、階層の数は３に限定されない。

図７は、第２の実施形態におけるパターン認識システムの構成例を示すブロック図である。第２の実施形態のパターン認識システム２００は、学習部２０１と、言語ベクトルモデル記憶部２０２と、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃと、特徴抽出部２０４と、類似度算出部２０５と、識別部２０６とを備える。

学習部２０１と、言語ベクトルモデル記憶部２０２と、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃとを含む部分が、学習装置に相当する。また、言語ベクトルモデル記憶部２０２と、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃと、特徴抽出部２０４と、類似度算出部２０５と、識別部２０６とを含む部分が、パターン認識装置に相当する。図７に示す例では、パターン認識システム２００内で、学習装置とパターン認識装置とが、言語ベクトルモデル記憶部２０２と、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃとを共有する場合を示している。

学習部２０１には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。このラベルL_n は、階層構造を有するラベルであり、L_n={L_n1,L_n2,L_n3}と表される。L_n1は、最上位階層のラベルであり、L_n2は２番目の階層のラベルであり、L_n3は３番目の階層のラベルである。上位の階層ほど、ラベルの意味が広く、下位の階層ほど、ラベルの意味が狭い。音響パターンX_n とラベルL_n との組{X_n, L_n}は、音響イベントが既知である音響信号に基づいて、予め導出されているものとする。音響信号に基づいて音響パターンを求める方法の一例については、第１の実施形態で既に説明しているので、ここでは説明を省略する。

学習部２０１は、カテゴリの階層別に、パラメータを学習する。学習部２０１の詳細については、後述する。

パラメータ記憶部２０３ａは、最上位階層に対応するパラメータを記憶する記憶装置である。パラメータ記憶部２０３ｂは、２番目の階層に対応するパラメータを記憶する記憶装置である。パラメータ記憶部２０３ｃは、３番目の階層に対応するパラメータを記憶する記憶装置である。このように、第２の実施形態では、カテゴリの階層別に、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃが設けられる。

言語ベクトルモデル記憶部２０２は、言語ベクトルモデルを記憶する記憶装置である。言語ベクトルモデル記憶部２０２は、第１の実施形態における言語ベクトルモデル記憶部１０２と同様である。

特徴抽出部２０４には、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。そして、特徴抽出部２０４は、階層別に、音響特徴ベクトルz_*1，z_*2，z_*3を抽出する。特徴抽出部２０４の詳細については、後述する。

類似度算出部２０５は、階層別に抽出された音響特徴ベクトルz_*1，z_*2，z_*3に基づいて、階層別に類似度ベクトルを生成する。

具体的には、類似度算出部２０５は、階層別に、識別結果の候補として予め定められた音響イベントのラベルを複数個、予め保持している。そして、類似度算出部２０５は、階層別に、保持しているラベル毎に、言語ベクトルモデル記憶部２０２に記憶されている言語ベクトルモデルに基づいて、ラベルから言語ベクトルを算出する。

さらに、類似度算出部２０５は、階層別に、ラベル毎に算出したそれぞれの言語ベクトルと、音響特徴ベクトルとの類似度を算出する。そして、類似度算出部２０５は、階層別に、算出した類似度を要素とする類似度ベクトルを生成する。例えば、類似度算出部２０５は、最上位階層に対して予め定められていた各ラベルから算出した各言語ベクトルと、最上位階層に対応する音響特徴ベクトルz_*1との類似度をそれぞれ算出し、その類似度を要素とする類似度ベクトルを生成する。類似度算出部２０５は、他の各階層についても同様に、類似度ベクトルを生成する。

識別部２０６は、階層別に生成された各類似度ベクトルに基づいて、階層別にラベルを識別する。個々の階層において、類似度ベクトルに基づいてラベルを識別する方法は、第１の実施形態で説明した方法と同様でよい。

例えば、識別部２０６は、類似度ベクトルの要素のうち、最大の要素に対応するラベルを特定する処理を、階層別に行ってもよい。

また、例えば、識別部２０６は、類似度ベクトルの個々の要素に対応する個々のラベルを、類似度ベクトルの要素の値の降順にソートし、類似度ベクトルの要素の値の降順にソートした各ラベルを識別結果として定める処理を、階層別に行ってもよい。

また、例えば、識別部２０６は、類似度ベクトルを識別器に適用することによってラベルを特定する処理を、階層別に行ってもよい。この場合、識別器は、階層毎に予め学習しておけばよい。

図８は、第２の実施形態における学習部２０１の構成例を示すブロック図である。図８では、学習部２０１とともに、言語ベクトルモデル記憶部２０２およびパラメータ記憶部２０３ａ，２０３ｂ，２０３ｃも図示している。

学習部２０１は、階層別に、音響特徴ベクトル抽出部２１１と、言語ベクトル算出部２１２と、類似度算出部２１３と、パラメータ更新部２１４とを備える。以下、最上位階層に対応する各要素（音響特徴ベクトル抽出部２１１、言語ベクトル算出部２１２、類似度算出部２１３、パラメータ更新部２１４）は、各符号に添え字“ａ”を付して表わす。同様に、２番目の階層に対応する各要素は、各符号に添え字“ｂ”を付して表わし、３番目の階層に対応する各要素は、各符号に添え字“ｃ”を付して表わす。

各階層の音響特徴ベクトル抽出部２１１は、与えられた音響パターンX_n または１つ上位の階層の音響特徴ベクトル抽出部によって抽出された音響特徴ベクトルから、音響特徴ベクトル抽出部２１１自身の階層における音響特徴ベクトルを抽出する。

具体的には、最上位階層の音響特徴ベクトル抽出部２１１ａは、最上位階層におけるパラメータ（パラメータ記憶部２０３ａに記憶されているパラメータ）を用いて、与えられた音響パターンX_n から、音響特徴ベクトルz_n1を抽出する。音響特徴ベクトルz_n1は、最上位階層における音響特徴ベクトルである。音響特徴ベクトル抽出部２１１ａは、音響特徴ベクトルz_n1を、音響特徴ベクトル抽出部２１１ａの階層（最上位階層）における類似度算出部２１３ａに送るとともに、１つ下位の階層の音響特徴ベクトル抽出部２１１ｂに送る。

また、最上位階層以外の各階層の音響特徴ベクトル抽出部２１１（ここでは、音響特徴ベクトル抽出部２１１ｂを例にして説明する。）は、その音響特徴ベクトル抽出部２１１ｂの階層におけるパラメータ（パラメータ記憶部２０３ｂに記憶されているパラメータ）を用いて、その音響特徴ベクトル抽出部２１１ｂの１つ上位の階層の音響特徴ベクトル抽出部２１１ａによって抽出された音響特徴ベクトルz_n1から、その音響特徴ベクトル抽出部２１１ｂの階層における音響特徴ベクトルz_n2を抽出する。音響特徴ベクトル抽出部２１１ｂは、その音響特徴ベクトルz_n2を、音響特徴ベクトル抽出部２１１ｂの階層における類似度算出部２１３ｂに送るとともに、１つ下位の階層の音響特徴ベクトル抽出部２１１ｃに送る。

ここでは、最上位階層以外の音響特徴ベクトル抽出部２１１として、音響特徴ベクトル抽出部２１１ｂを例にして説明したが、音響特徴ベクトル抽出部２１１ｃの動作も同様である。ただし、１つ下位の階層の音響特徴ベクトル抽出部２１１が存在しない場合には、１つ下位の階層の音響特徴ベクトル抽出部２１１に音響特徴ベクトルを送らなくてよい。

各階層の音響特徴ベクトル抽出部２１１ａ，２１１ｂ，２１１ｃは、いずれも、ベクトルまたは二次元以上の配列で表される情報から、音響特徴ベクトルを抽出する構成である。

各階層の言語ベクトル算出部２１２は、言語ベクトルモデル記憶部２０２に記憶されている言語ベクトルモデルに基づいて、与えられたL_n 内のラベルL_n1,L_n2,L_n3のうち、言語ベクトル算出部２１２自身の階層に対応するラベルから、言語ベクトルを算出する。そして、言語ベクトル算出部２１２は、その言語ベクトル算出部２１２の階層における類似度算出部２１３に言語ベクトルを送る。

例えば、最上位階層の言語ベクトル算出部２１２ａは、言語ベクトルモデルに基づいて、L_n={L_n1,L_n2,L_n3}におけるL_n1から言語ベクトルを算出し、その言語ベクトルを類似度算出部２１３ａに送る。

他の階層の言語ベクトル算出部２１２ｂ，２１２ｃの動作も同様である。なお、各階層の言語ベクトル算出部２１２が言語ベクトルモデルに基づいてラベルから言語ベクトルを算出する動作は、第１の実施形態における言語ベクトル算出部１１２が言語ベクトルを算出する動作と同様である。

各階層の類似度算出部２１３は、類似度算出部２１３の階層の音響特徴ベクトル抽出部２１１および言語ベクトル算出部２１２から送られた音響特徴ベクトルと言語ベクトルとの類似度を算出する。

例えば、最上位階層の類似度算出部２１３ａは、音響特徴ベクトル抽出部２１１ａから送られた音響特徴ベクトルz_n1と、言語ベクトル算出部２１２ａから送られた言語ベクトルとの類似度を算出する。

他の階層の類似度算出部２１３ｂ，２１３ｃの動作も同様である。なお、各階層の類似度算出部２１３が音響特徴ベクトルと言語ベクトルの類似度を算出する動作は、第１の実施形態における類似度算出部１１３が音響特徴ベクトルと言語ベクトルの類似度を算出する動作と同様である。

各階層のパラメータ更新部２１４は、パラメータ更新部２１４自身の階層の類似度算出部２１３が算出する類似度（音響特徴ベクトルと言語ベクトルの類似度）が大きくなるように、その階層のパラメータ（音響特徴ベクトルを抽出するためのパラメータ）を学習する。そして、パラメータ更新部２１４は、その階層のパラメータ記憶部２０３に記憶されているパラメータを、学習したパラメータに更新する。

例えば、最上位階層のパラメータ更新部２１４ａは、類似度算出部２１３ａが算出する類似度が大きくなるように、最上位階層のパラメータを学習し、パラメータ記憶部２０３ａに記憶されているパラメータを、学習したパラメータに更新する。

他の階層のパラメータ更新部２１４ｂ，２１４ｂの動作も同様である。なお、各階層のパラメータ更新部２１４がパラメータを学習する動作は、第１の実施形態におけるパラメータ更新部２１４がパラメータを学習する動作と同様である。

図９は、特徴抽出部２０４の構成例を示すブロック図である。図９では、特徴抽出部２０４とともに、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃおよび類似度算出部２０５も図示している。

特徴抽出部２０４は、階層別に、音響特徴ベクトル抽出部２５１を備える。以下、最上位階層に対応する音響特徴ベクトル抽出部２５１は、符号“２５１”に添え字“ａ”を付して表す。同様に、２番目の階層に対応する音響特徴ベクトル抽出部２５１は、符号“２５１”に添え字“ｂ”を付して表し、３番目の階層に対応する音響特徴ベクトル抽出部２５１は、符号“２５１”に添え字“ｃ”を付して表わす。

各階層の音響特徴ベクトル抽出部２５１は、与えられた音響パターンX_* または１つ上位の階層の音響特徴ベクトル抽出部によって抽出された音響特徴ベクトルから、音響特徴ベクトル抽出部２５１自身の階層における音響特徴ベクトルを抽出する。

具体的には、最上位階層の音響特徴ベクトル抽出部２５１ａは、最上位階層におけるパラメータ（パラメータ記憶部２０３ａに記憶されているパラメータ）を用いて、与えられた音響パターンX_* から、音響特徴ベクトルz_*1を抽出する。音響パターンX_* は、対応する音響イベントのラベルが不明となっている音響パターンである。音響特徴ベクトルz_*1は、最上位階層における音響特徴ベクトルである。音響特徴ベクトル抽出部２５１ａは、音響特徴ベクトルz_*1を類似度算出部２０５に送るとともに、１つ下位の階層の音響特徴ベクトル抽出部２５１ｂに送る。

また、最上位階層以外の各階層の音響特徴ベクトル抽出部２５１（ここでは、音響特徴ベクトル抽出部２５１ｂを例にして説明する。）は、その音響特徴ベクトル抽出部２５１ｂの階層におけるパラメータ（パラメータ記憶部２０３ｂに記憶されているパラメータ）を用いて、その音響特徴ベクトル抽出部２５１ｂの１つ上位の階層の音響特徴ベクトル抽出部２５１ａによって抽出された音響特徴ベクトルz_*1から、その音響特徴ベクトル抽出部２５１ｂの階層における音響特徴ベクトルz_*2を抽出する。音響特徴ベクトル抽出部２５１ｂは、その音響特徴ベクトルz_*2を類似度算出部２０５に送るとともに、１つ下位の階層の音響特徴ベクトル抽出部２５１ｃに送る。

ここでは、最上位階層以外の音響特徴ベクトル抽出部２５１として、音響特徴ベクトル抽出部２５１ｂを例にして説明したが、音響特徴ベクトル抽出部２５１ｃの動作も同様である。ただし、１つ下位の階層の音響特徴ベクトル抽出部２５１が存在しない場合には、１つ下位の階層の音響特徴ベクトル抽出部２５１に音響特徴ベクトルを送らなくてよい。

音響特徴ベクトル抽出部２１１ａ，２１１ｂ，２１１ｃと、言語ベクトル算出部２１２ａ，２１２ｂ，２１２ｃと、類似度算出部２１３ａ，２１３ｂ，２１３ｃと、パラメータ更新部２１４ａ，２１４ｂ，２１４ｃとを含む学習部２０１は、例えば、学習プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、例えば、ＣＰＵが、コンピュータのプログラム記憶装置等のプログラム記録媒体から学習プログラムを読み込み、学習プログラムに従って、音響特徴ベクトル抽出部２１１ａ，２１１ｂ，２１１ｃと、言語ベクトル算出部２１２ａ，２１２ｂ，２１２ｃと、類似度算出部２１３ａ，２１３ｂ，２１３ｃと、パラメータ更新部２１４ａ，２１４ｂ，２１４ｃとを含む学習部２０１として動作すればよい。

また、音響特徴ベクトル抽出部２５１ａ，２５１ｂ，２５１ｃを含む特徴抽出部２０４、類似度算出部２０５および識別部２０６は、例えば、パターン認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、例えば、ＣＰＵが、コンピュータのプログラム記憶装置等のプログラム記録媒体からパターン認識プログラムを読み込み、パターン認識プログラムに従って、特徴抽出部２０４、類似度算出部２０５および識別部２０６として動作すればよい。

また、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃおよび言語ベクトルモデル記憶部１０２は、例えば、コンピュータが備える記憶装置によって実現される。

次に、第２の実施形態の処理経過について説明する。図１０は、１つの階層に着目した場合における学習部２０１内のその階層に対応する要素の処理経過の例を示すフローチャートである。図１０では、最上位階層に着目した場合の例を示している。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｂは、それぞれ、予め定められたパラメータの初期値を記憶しているものとする。

また、学習部２０１には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n={L_n1,L_n2,L_n3}との組が入力されているものとする。

言語ベクトル算出部２１２ａは、言語ベクトルモデルに基づいて、最上位階層に対応するラベルL_n1から言語ベクトルを算出する（ステップＳ２１）。

また、音響特徴ベクトル抽出部２１１ａは、最上位階層に対応するパラメータ（パラメータ記憶部２０３ａに記憶されているパラメータ）を用いて、入力された音響パターンX_n から音響特徴ベクトルz_n1を抽出する（ステップＳ２２）。

次に、類似度算出部２１３ａは、ステップＳ２２で抽出された音響特徴ベクトルz_n1と、ステップＳ２１で算出された言語ベクトルとの類似度を算出する（ステップＳ２３）。

パラメータ更新部２１４ａは、類似度算出部２１３ａによって算出される類似度が大きくなるように、パラメータを学習し、パラメータ記憶部２０３ａに記憶されているパラメータを、学習したパラメータに更新する（ステップＳ２４）。

そして、パラメータ更新部２１４ａは、収束条件が満たされたか否かを判定する（ステップＳ２５）。収束条件が満たされていない場合（ステップＳ２５のＮｏ）、ステップＳ２２〜Ｓ２５の処理を繰り返す。収束条件が満たされている場合（ステップＳ２５のＹｅｓ）、音響特徴ベクトル抽出部２１１ａは、直近のステップＳ２２で抽出した音響特徴ベクトルz_n1を１つ下位の階層の音響特徴ベクトル抽出部２１１ｂに送り（ステップＳ２６）、処理を終了する。

最上位階層以外の各階層においても、ステップＳ２１〜Ｓ２６と同様の処理が行われる。ただし、最上位階層以外の各階層では、ステップＳ２２に相当する処理として、音響特徴ベクトル抽出部２１１は、その音響特徴ベクトル抽出部２１１の階層に対応するパラメータを用いて、その階層よりも１つ上位の階層で抽出された音響特徴ベクトルから、音響特徴ベクトルを抽出する。他の点に関しては、ステップＳ２１〜Ｓ２６と同様である。

次に、対応する音響イベントのラベルが不明となっている音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過について説明する。なお、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃはそれぞれ、学習部２０１によって更新されたパラメータを記憶しているものとする。

音響パターンX_* が特徴抽出部２０４に入力されると、最上位階層に対応する音響特徴ベクトル抽出部２５１ａが、最上位階層に対応するパラメータ（パラメータ記憶部２０３ａに記憶されているパラメータ）を用いて、音響パターンX_* から、音響特徴ベクトルz_*1を抽出する。音響特徴ベクトル抽出部２５１ａは、その音響特徴ベクトルz_*1を１つ下位の階層の音響特徴ベクトル抽出部２５１ｂに送るとともに、類似度算出部２０５に送る。

２番目の階層の音響特徴ベクトル抽出部２５１ｂは、その階層に対応するパラメータ（パラメータ記憶部２０３ｂに記憶されているパラメータ）を用いて、１つ上位の階層で抽出された音響特徴ベクトルz_*1から、音響特徴ベクトルz_*2を抽出する。音響特徴ベクトル抽出部２５１ｂは、その音響特徴ベクトルz_*2を１つ下位の階層の音響特徴ベクトル抽出部２５１ｃに送るとともに、類似度算出部２０５に送る。

３番目以降の階層の音響特徴ベクトル抽出部２５１も同様の処理を行う。なお、１つ下位の階層の音響特徴ベクトル抽出部２５１が存在しない場合には、類似度算出部２０５に音響特徴ベクトルを送ればよい。図９に示す例では、音響特徴ベクトル抽出部２５１ｃは、音響特徴ベクトルz_*2から抽出した音響特徴ベクトルz_*3を類似度算出部２０５に送ればよい。

この結果、類似度算出部２０５は、各階層で抽出された音響特徴ベクトルz_*1，z_*2，z_*3，を得る。この後、類似度算出部２０５および識別部２０６（図７参照）は、階層別に、第１の実施形態におけるステップＳ１２〜Ｓ１４（図４参照）と同様の処理を実行すればよい。ステップＳ１２〜Ｓ１４については、第１の実施形態で説明しているので、ここでは説明を省略する。また、階層別に、第１の実施形態におけるステップＳ１２〜Ｓ１４と同様の処理を実行する場合、類似度算出部２０５および識別部２０６は、階層毎の処理を並列に実行してもよい。

第２の実施形態によれば、最上位階層の音響特徴ベクトル抽出部２１１ａによって抽出される音響特徴ベクトルz_n1は、例えば、前述の例における「人間の声」や「音楽」との意味的な違いを捉えた音響特徴ベクトルとなっている。そして、２番目の階層で、その音響特徴ベクトルz_n1から抽出される音響特徴ベクトルz_n2は、例えば、前述の例における「男声」や「女声」との意味的な違いを捉えた音響特徴ベクトルとなっている。

このように、第２の実施形態では、学習部２０１において、各層で抽出される音響特徴ベクトルは、異なるラベルが持つ意味的な違いをより際立たせたものとなる。この点は、特徴抽出部２０４において、各層で抽出される音響特徴ベクトルでも同様である。従って、第２の実施形態では、音響イベントの識別精度をより向上させることができるパラメータを階層別に学習することができる。そして、与えられた音響パターンから音響イベントを、階層別に、より高い精度で識別することができる。

次に、第２の実施形態の変形例を説明する。第１の実施形態の変形例と同様に、パターン認識システム２００（図７参照）が類似度算出部２０５を備えない構成であってもよい。この場合、類似度算出部２０５が設けられないので、各階層の類似度ベクトルは生成されない。

この場合、識別部２０６は、階層別に、音響特徴ベクトルを識別器に適用することによって、音響イベントのラベルを識別すればよい。例えば、識別部２０６は、最上位階層の音響特徴ベクトルz_*1を識別器に適用することによって、最上位階層のラベルを識別すればよい。識別部２０６は、他の各階層に関しても、同様にラベルを識別すればよい。また、識別器は、予め、階層別に機械学習によって学習しておけばよい。その他の点は、第２の実施形態と同様である。

この場合でも、上記と同様の効果が得られる。

また、第２の実施形態において、学習装置と、パターン認識装置とが、それぞれ独立した装置であってもよい。

図１１は、第２の実施形態において、学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。図７に示す要素と同様の要素については、図７と同一の符号を付し、説明を省略する。学習装置２５０は、学習部２０１と、言語ベクトルモデル記憶部２０２と、パラメータ記憶部２０３ａ，２０３ｂ，２０３ｃとを備える。学習部２０１は、図８に示すように、階層別に、音響特徴ベクトル抽出部２１１と、言語ベクトル算出部２１２と、類似度算出部２１３と、パラメータ更新部２１４とを含む。これらの要素は、上記の第２の実施形態で説明した各要素と同様であり、説明を省略する。学習装置２５０によっても、音響イベントの識別精度をより向上させることができるパラメータを階層別に学習することができる。

図１２は、第２の実施形態において、パターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。図７に示す要素と同様の要素については、図７と同一の符号を付し、説明を省略する。パターン認識装置２６０は、特徴抽出部２０４と、類似度算出部２０５と、識別部２０６を、パラメータ記憶部２０３Ｓａ，２０３Ｓｂ，２０３Ｓｃと、言語ベクトルモデル記憶部２０２とを備える。パラメータ記憶部２０３Ｓａ，２０３Ｓｂ，２０３Ｓｃは、学習装置で学習されたパラメータを記憶する記憶装置である。例えば、学習装置２５０（図１１参照）で学習され、図１１に示すパラメータ記憶部２０３ａ，２０３ｂ，２０３ｃに記憶されたパラメータをそれぞれ、パターン認識装置２６０のパラメータ記憶部２０３Ｓａ，２０３Ｓｂ，２０３Ｓｃにコピーすればよい。また、特徴抽出部２０４は、図９に示すように、階層別に音響特徴ベクトル抽出部２５１を含む。パターン認識装置２６０によっても、与えられた音響パターンから音響イベントを、階層別に、より高い精度で識別することができる。

なお、既に説明したように、階層の数は３に限定されない。

また、本発明の各実施形態では、音響信号を例にして説明した。本発明は、振動センサから得られる時系列振動信号等の任意の信号に適用することができる。

図１３は、各実施形態におけるパターン認識システム（独立した学習装置や独立したパターン認識装置であってもよい。）に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４とを備える。

各実施形態におけるパターン認識システム（独立した学習装置や独立したパターン認識装置であってもよい。）は、コンピュータ１０００に実装され、その動作は、プログラムの形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、そのプログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、そのプログラムに従って、上記の各実施形態やその変形例で説明した動作を実行する。

補助記憶装置１００３は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリ等が挙げられる。また、プログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００がそのプログラムを主記憶装置１００２に展開し、上記の処理を実行してもよい。

また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。

また、各構成要素の一部または全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本発明の概要について説明する。図１４は、本発明の学習装置の概要を示すブロック図である。本発明の学習装置は、音響特徴抽出手段８２と、言語ベクトル算出手段８３と、類似度算出手段８４と、パラメータ更新手段８５とを備える。

音響特徴抽出手段８２（例えば、音響特徴ベクトル抽出部１１１、音響特徴ベクトル抽出部２１１ａ，２１１ｂ，２１１ｃ）は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴（例えば、音響特徴ベクトル）を抽出する。

言語ベクトル算出手段８３（例えば、言語ベクトル算出部１１２、言語ベクトル算出部２１２ａ，２１２ｂ，２１２ｃ）は、音響信号の発生源の属性（例えば、音響イベント）を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する。

類似度算出手段８４（例えば、類似度算出部１１３、類似度算出部２１３ａ，２１３ｂ，２１３ｃ）は、音響特徴と言語ベクトルとの類似度を算出する。

パラメータ更新手段８５（例えば、パラメータ更新部１１４、パラメータ更新部２１４ａ，２１４ｂ，２１４ｃ）は、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新する。

そのような構成により、音響パターンから音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる。

また、図１５は、本発明のパターン認識装置の概要を示すブロック図である。本発明のパターン認識装置は、音響特徴抽出手段９２と、識別手段９３とを備える。

音響特徴抽出手段９２（例えば、音響特徴ベクトル抽出部１０４、音響特徴ベクトル抽出部２５１ａ，２５１ｂ，２５１ｃ）は、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性（例えば、音響イベント）を示すラベルとの組に基づいて学習された、音響パターンから音響特徴（例えば、音響特徴ベクトル）を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する。

識別手段９３（例えば、識別部１０６、識別部２０６）は、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する。

そのような構成により、音響パターンから音響イベントを高い精度で識別することができる。

上記の本発明の各実施形態は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

（付記１）
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出手段と、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出手段と、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備える
ことを特徴とする学習装置。

（付記２）
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
カテゴリの階層別に、
予め与えられたパラメータを記憶するパラメータ記憶手段と、
音響特徴抽出手段と、
言語ベクトル算出手段と、
類似度算出手段と、
パラメータ更新手段とを備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の１つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
各階層の言語ベクトル算出手段は、当該言語ベクトル算出手段に対応する階層のラベルから言語ベクトルを算出し、
各階層の類似度算出手段は、当該類似度算出手段に対応する階層の音響特徴抽出手段によって抽出された音響特徴と、当該類似度算出手段に対応する階層の言語ベクトル算出手段によって算出された言語ベクトルとの類似度を算出し、
各階層のパラメータ更新手段は、当該パラメータ更新手段に対応する階層の類似度算出手段によって算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
付記１に記載の学習装置。

（付記３）
音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
付記１または付記２に記載の学習装置。

（付記４）
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備える
ことを特徴とするパターン認識装置。

（付記５）
識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出手段によって抽出された音響特徴との類似度を算出する類似度算出手段を備え、
識別手段は、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
付記４に記載のパターン認識装置。

（付記６）
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
音響特徴抽出手段を階層別に備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の１つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
識別手段は、階層別にラベルを識別する
付記４または付記５に記載のパターン認識装置。

（付記７）
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
音響特徴抽出手段を階層別に備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の１つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
類似度算出手段は、階層別に、識別結果の候補として予め定められたラベルを複数個保持し、階層別に、ラベル毎に類似度を算出し、
識別手段は、階層別にラベルを識別する
付記５に記載のパターン認識装置。

（付記８）
音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
付記５または付記７に記載のパターン認識装置。

（付記９）
コンピュータが、
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行する
ことを特徴とする学習方法。

（付記１０）
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段が設けられ、
コンピュータが、
カテゴリの階層別に、
音響特徴抽出処理、
言語ベクトル算出処理、
類似度算出処理、および、
パラメータ更新処理を実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出し、
各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出し、
各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
付記９に記載の学習方法。

（付記１１）
コンピュータが、
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行する
ことを特徴とするパターン認識方法。

（付記１２）
コンピュータが、
識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行し、
識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
付記１１に記載のパターン認識方法。

（付記１３）
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
音響特徴抽出処理を階層別に実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
識別処理で、階層別にラベルを識別する
付記１１または付記１２に記載のパターン認識方法。

（付記１４）
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
音響特徴抽出処理を階層別に実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
階層別に、識別結果の候補として予め定められたラベルを複数個保持し、類似度算出処理で、階層別に、ラベル毎に類似度を算出し、
識別処理で、階層別にラベルを識別する
付記１２に記載のパターン認識方法。

（付記１５）
コンピュータに、
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理
を実行させるための学習プログラム。

（付記１６）
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
コンピュータは、
カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段を備え、
前記コンピュータに、
カテゴリの階層別に、
音響特徴抽出処理、
言語ベクトル算出処理、
類似度算出処理、および、
パラメータ更新処理を実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出させ、
各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出させ、
各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習させ、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新させる
付記１５に記載の学習プログラム。

（付記１７）
コンピュータに、
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理
を実行させるためのパターン認識プログラム。

（付記１８）
コンピュータは、識別結果の候補として予め定められたラベルを複数個保持し、
前記コンピュータに、
ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行させ、
識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別させる
付記１７に記載のパターン認識プログラム。

（付記１９）
コンピュータは、
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
前記コンピュータに、
音響特徴抽出処理を階層別に実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
識別処理で、階層別にラベルを識別させる
付記１７または付記１８に記載のパターン認識プログラム。

（付記２０）
コンピュータは、
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
前記コンピュータに、
音響特徴抽出処理を階層別に実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
前記コンピュータは、
階層別に、識別結果の候補として予め定められたラベルを複数個保持し、
前記コンピュータに、
類似度算出処理で、階層別に、ラベル毎に類似度を算出させ、
識別処理で、階層別にラベルを識別させる
付記１８に記載のパターン認識プログラム。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

本発明は、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出するためのパラメータを学習する学習装置や、与えられた音響パターンの基となった音響信号の発生源を識別するパターン認識装置に好適に適用される。

１０１，２０１学習部
１０２，２０２言語ベクトルモデル記憶部
１０３，２０３ａ，２０３ｂ，２０３ｃパラメータ記憶部
１０４，２５１ａ，２５１ｂ，２５１ｃ音響特徴ベクトル抽出部
１０５，２０５類似度算出部
１０６，２０６識別部
１１１，２１１ａ，２１１ｂ，２１１ｃ音響特徴ベクトル抽出部
１１２，２１２ａ，２１２ｂ，２１２ｃ言語ベクトル算出部
１１３，２１３ａ，２１３ｂ，２１３ｃ類似度算出部
１１４，２１４ａ，２１４ｂ，２１４ｃパラメータ更新部

Claims

予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出手段と、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出手段と、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備える
ことを特徴とする学習装置。
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
カテゴリの階層別に、
予め与えられたパラメータを記憶するパラメータ記憶手段と、
音響特徴抽出手段と、
言語ベクトル算出手段と、
類似度算出手段と、
パラメータ更新手段とを備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の１つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
各階層の言語ベクトル算出手段は、当該言語ベクトル算出手段に対応する階層のラベルから言語ベクトルを算出し、
各階層の類似度算出手段は、当該類似度算出手段に対応する階層の音響特徴抽出手段によって抽出された音響特徴と、当該類似度算出手段に対応する階層の言語ベクトル算出手段によって算出された言語ベクトルとの類似度を算出し、
各階層のパラメータ更新手段は、当該パラメータ更新手段に対応する階層の類似度算出手段によって算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
請求項１に記載の学習装置。
音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
請求項１または請求項２に記載の学習装置。
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備える
ことを特徴とするパターン認識装置。
識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出手段によって抽出された音響特徴との類似度を算出する類似度算出手段を備え、
識別手段は、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
請求項４に記載のパターン認識装置。
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
音響特徴抽出手段を階層別に備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の１つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
識別手段は、階層別にラベルを識別する
請求項４または請求項５に記載のパターン認識装置。
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
音響特徴抽出手段を階層別に備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の１つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
類似度算出手段は、階層別に、識別結果の候補として予め定められたラベルを複数個保持し、階層別に、ラベル毎に類似度を算出し、
識別手段は、階層別にラベルを識別する
請求項５に記載のパターン認識装置。
音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
請求項５または請求項７に記載のパターン認識装置。
コンピュータが、
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行する
ことを特徴とする学習方法。
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段が設けられ、
コンピュータが、
カテゴリの階層別に、
音響特徴抽出処理、
言語ベクトル算出処理、
類似度算出処理、および、
パラメータ更新処理を実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出し、
各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出し、
各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
請求項９に記載の学習方法。
コンピュータが、
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行する
ことを特徴とするパターン認識方法。
コンピュータが、
識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行し、
識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
請求項１１に記載のパターン認識方法。
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
音響特徴抽出処理を階層別に実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
識別処理で、階層別にラベルを識別する
請求項１１または請求項１２に記載のパターン認識方法。
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
音響特徴抽出処理を階層別に実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
階層別に、識別結果の候補として予め定められたラベルを複数個保持し、類似度算出処理で、階層別に、ラベル毎に類似度を算出し、
識別処理で、階層別にラベルを識別する
請求項１２に記載のパターン認識方法。
コンピュータに、
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理
を実行させるための学習プログラム。
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
コンピュータは、
カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段を備え、
前記コンピュータに、
カテゴリの階層別に、
音響特徴抽出処理、
言語ベクトル算出処理、
類似度算出処理、および、
パラメータ更新処理を実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出させ、
各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出させ、
各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習させ、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新させる
請求項１５に記載の学習プログラム。
コンピュータに、
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理
を実行させるためのパターン認識プログラム。
コンピュータは、識別結果の候補として予め定められたラベルを複数個保持し、
前記コンピュータに、
ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行させ、
識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別させる
請求項１７に記載のパターン認識プログラム。
コンピュータは、
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
前記コンピュータに、
音響特徴抽出処理を階層別に実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
識別処理で、階層別にラベルを識別させる
請求項１７または請求項１８に記載のパターン認識プログラム。
コンピュータは、
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
前記コンピュータに、
音響特徴抽出処理を階層別に実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の１つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
前記コンピュータは、
階層別に、識別結果の候補として予め定められたラベルを複数個保持し、
前記コンピュータに、
類似度算出処理で、階層別に、ラベル毎に類似度を算出させ、
識別処理で、階層別にラベルを識別させる
請求項１８に記載のパターン認識プログラム。