JPWO2020059084A1 - 学習装置およびパターン認識装置 - Google Patents

学習装置およびパターン認識装置 Download PDF

Info

Publication number
JPWO2020059084A1
JPWO2020059084A1 JP2020547549A JP2020547549A JPWO2020059084A1 JP WO2020059084 A1 JPWO2020059084 A1 JP WO2020059084A1 JP 2020547549 A JP2020547549 A JP 2020547549A JP 2020547549 A JP2020547549 A JP 2020547549A JP WO2020059084 A1 JPWO2020059084 A1 JP WO2020059084A1
Authority
JP
Japan
Prior art keywords
acoustic
feature extraction
layer
acoustic feature
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020547549A
Other languages
English (en)
Other versions
JP7040628B2 (ja
Inventor
達也 小松
達也 小松
玲史 近藤
玲史 近藤
咲子 美島
咲子 美島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020059084A1 publication Critical patent/JPWO2020059084A1/ja
Application granted granted Critical
Publication of JP7040628B2 publication Critical patent/JP7040628B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

音響特徴抽出手段82は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する。言語ベクトル算出手段83は、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する。類似度算出手段84は、音響特徴と言語ベクトルとの類似度を算出する。パラメータ更新手段85は、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新する。

Description

本発明は、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出するためのパラメータを学習する学習装置、学習方法および学習プログラム、並びに、与えられた音響パターンの基となった音響信号の発生源を識別するパターン認識装置、パターン認識方法およびパターン認識プログラムに関する。
非特許文献1には、受音した音響信号を、予め定義した音響イベントに分類し、分類結果を出力する装置と、音響信号を音響イベントに分類するための識別器の学習方法とが記載されている。
ここで、「音響信号」とは、機器(例えば、マイクロフォン等)によって収録された音の信号である。
また、「音響イベント」とは、音響信号の発生源の属性である。
Rui Lu, Zhiyao Duan, "BIDIRECTIONAL GRU FOR SOUND EVENT DETECTION", [online], 2017年, Detection and Classification of Acoustic Scenes and Event, [2018年8月31日検索]、インターネット、<URL: https://www.cs.tut.fi/sgn/arg/dcase2017/documents/challenge_technical_reports/DCASE2017_Lu_137.pdf>
音響イベントが異なっていていても、発生した音が類似している場合がある。換言すれば、音響イベントが異なっていていても、音響信号の類似度が高い場合がある。そのような場合、音響イベントの識別精度が低下するという問題がある。例えば、非特許文献1に記載された技術によって、「悲鳴」および「歓声」という2種類の音響イベントのいずれかに音響信号を分類することを考える。「悲鳴」および「歓声」は、異なる音響イベントである。しかし、悲鳴から得られる音響信号も、歓声から得られる音響信号も、人間の大きな声から得られる音響信号であり、類似した音響信号となる。そのため、悲鳴から得られる音響信号から抽出される音響特徴量、および、歓声から得られる音響信号から抽出される音響特徴量も類似したものとなる。その結果、非特許文献1に記載された技術では、悲鳴から得られる音響信号や歓声から得られる音響信号に応じた音響イベントの識別(分類)の精度が低下する。
そこで、本発明は、与えられた情報から音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる学習装置、学習方法および学習プログラムを提供することを目的とする。
また、本発明は、与えられた情報から音響イベントを高い精度で識別することができるパターン認識装置、パターン認識方法およびパターン認識プログラムを提供することを目的とする。
本発明による学習装置は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出手段と、音響特徴と言語ベクトルとの類似度を算出する類似度算出手段と、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備えることを特徴とする。
本発明によるパターン認識装置は、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備えることを特徴とする。
本発明による学習方法は、コンピュータが、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出処理、音響特徴と言語ベクトルとの類似度を算出する類似度算出処理、および、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行することを特徴とする。
本発明によるパターン認識方法は、コンピュータが、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行することを特徴とする。
本発明による学習プログラムは、コンピュータに、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出処理、音響特徴と言語ベクトルとの類似度を算出する類似度算出処理、および、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行させることを特徴とする。
本発明によるパターン認識プログラムは、コンピュータに、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行させることを特徴とする。
本発明によれば、与えられた情報から音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる。
また、本発明によれば、与えられた情報から音響イベントを高い精度で識別することができる。
第1の実施形態におけるパターン認識システムの構成例を示すブロック図である。 学習部の構成例を示すブロック図である。 学習部がパラメータを学習する際の処理経過の例を示すフローチャートである。 音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過の例を示すフローチャートである。 本発明の学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。 本発明のパターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。 第2の実施形態におけるパターン認識システムの構成例を示すブロック図である。 第2の実施形態における学習部の構成例を示すブロック図である。 特徴抽出部の構成例を示すブロック図である。 1つの階層に着目した場合における学習部内のその階層に対応する要素の処理経過の例を示すフローチャートである。 第2の実施形態において、学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。 第2の実施形態において、パターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。 各実施形態におけるパターン認識システムに係るコンピュータの構成例を示す概略ブロック図である。 本発明の学習装置の概要を示すブロック図である。 本発明のパターン認識装置の概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
以下の説明では、本発明の学習装置(与えられた情報から音響特徴を抽出するためのパラメータを学習する学習装置)と、本発明のパターン認識装置(与えられた情報に応じた音響イベントを識別するパターン認識装置)とを包含するパターン認識システムを例にして説明する。ただし、本発明の学習装置と、本発明のパターン認識装置とが独立した装置であってもよい。また、上記の「与えられた情報」とは、後述の「音響パターン」を意味する。なお、パターン認識とは、音響パターンに応じた音響イベントを識別することを意味し、パターン認識装置は、識別装置と称することもできる。これらの点は、後述の第2の実施形態でも同様である。
図1は、第1の実施形態におけるパターン認識システムの構成例を示すブロック図である。第1の実施形態のパターン認識システム100は、学習部101と、言語ベクトルモデル記憶部102と、パラメータ記憶部103と、音響特徴ベクトル抽出部104と、類似度算出部105と、識別部106とを備える。
学習部101と、言語ベクトルモデル記憶部102と、パラメータ記憶部103とを含む部分が、学習装置に相当する。また、言語ベクトルモデル記憶部102と、パラメータ記憶部103と、音響特徴ベクトル抽出部104と、類似度算出部105と、識別部106とを含む部分が、パターン認識装置に相当する。図1に示す例では、パターン認識システム100内で、学習装置とパターン認識装置とが、言語ベクトルモデル記憶部102と、パラメータ記憶部103とを共有する場合を示している。
学習部101には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。ここで、音響パターンについて説明する。「音響パターン」とは、音響信号に対する処理の結果得られる情報である。例えば、マイクロフォン等の音響センサで収録したアナログ音響信号をAD変換(Analog to Digital Conversion)することによって得られるデジタル信号系列[x(1),・・・,x(T)]や、そのデジタル信号系列[x(1),・・・,x(T)]を短時間フーリエ変換やConstant-Q変換等によって周波数解析した結果として得られる二次元配列を、音響パターンとして用いればよい。ここで、T は、所定の時間幅(例えば、1〜10秒程度)であり、検出したい音響イベントの時間幅に対応した値をT として設定すればよい。音響パターンは、ベクトル(一次元配列)であっても、二次元以上の配列であってもよい。音響パターンは、音響信号が有限のベクトルまたは二次元以上の配列になるように音響信号に処理を加えた結果であると言うことができる。
音響パターンX_n に対応付けられたラベルL_n とは、音響パターンX_n の基となった音響信号の音響イベントを示すラベルであり、文字列で表される。音響イベントは、既に説明したように、音響信号の発生源の属性である。
音響パターンX_n とラベルL_n との組{X_n, L_n}は、音響イベントが既知である音響信号に基づいて、予め導出されているものとする。
学習部101には、音響パターンX_n とラベルL_n との組{X_n, L_n}が入力され、学習部101は、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。ここで、“n ”は、学習データセット(音響パターンとラベルとの組)のインデックス番号である。入力される学習データセットの数をN とすると、n は、1からN までの整数となる。
パラメータ記憶部103は、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを記憶する記憶装置である。初期状態では、パラメータ記憶部103は、予め定められたパラメータΘの初期値を記憶している。
学習部101は、入力された音響パターンX_n とラベルL_n との組{X_n, L_n}を用いて、パラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータを、学習によって得たパラメータΘに更新する。
図2は、学習部101の構成例を示すブロック図である。図2では、学習部101とともに、言語ベクトルモデル記憶部102およびパラメータ記憶部103も図示している。学習部101は、音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む。
なお、学習部101内の音響特徴ベクトル抽出部111は、学習装置に相当する部分に含まれるので、パターン認識装置に相当する部分に含まれる音響特徴ベクトル抽出部104(図1参照)とは区別し、図2に示すように符号“111”を用いて表す。同様に、学習部101内の類似度算出部113は、学習装置に相当する部分に含まれるので、パターン認識装置に相当する部分に含まれる類似度算出部105(図1参照)とは区別し、図2に示すように符号“113”を用いて表す。
音響特徴ベクトル抽出部111は、音響パターンX_n を入力とし、パラメータ記憶部103に記憶されているパラメータΘを用いて、音響パターンX_n から、音響特徴ベクトルz_n を抽出し、その音響特徴ベクトルz_n を出力する。音響パターンから音響特徴ベクトルを抽出するためのパラメータΘは、例えば、ニューラルネットワークのパラメータであるが、他のパラメータであってもよい。また、音響特徴ベクトル抽出部111は、ベクトルまたは二次元以上の配列で表される音響パターンから、パラメータΘを用いて音響特徴ベクトルを抽出する構成であればよい。また、音響特徴ベクトルを抽出する方法は、非特許文献1に記載された方法でも、あるいは、他の方法でもよい。
言語ベクトルモデル記憶部102は、文字列で表されたラベルからベクトルを算出するためのモデル(以下、言語ベクトルモデルと記す。)を記憶する記憶装置である。また、言語ベクトルモデルに基づいてラベルから算出されたベクトルは、言語ベクトルと称される。
言語ベクトル算出部112は、音響パターンX_n の基となった音響信号の音響イベントを示すラベルL_n から、言語ベクトルモデルに基づいて、言語ベクトルw_n を算出し、その言語ベクトルw_n を出力する。
ここで、言語ベクトル算出部112は、2つのラベルの意味が近いほど、その2つのラベルそれぞれから得られた言語ベクトルの距離が小さくなり、2つのラベルの意味が遠いほど、その2つのラベルそれぞれから得られた言語ベクトルの距離が大きくなるように、ラベルから言語ベクトルを算出する。このような言語ベクトルの算出技術として、例えば、“word2vec”、“skip gram”、“GloVe”等の技術を用いてよい。
例えば、ラベル「悲鳴」とラベル「叫び声」の意味は近い。従って、言語ベクトル算出部112がラベル「悲鳴」から算出した言語ベクトルと、言語ベクトル算出部112がラベル「叫び声」から算出した言語ベクトルとの距離は小さくなる。また、例えば、ラベル「悲鳴」とラベル「歓声」の意味は遠い。従って、言語ベクトル算出部112がラベル「悲鳴」から算出した言語ベクトルと、言語ベクトル算出部112がラベル「歓声」から算出した言語ベクトルとの距離は大きくなる。
ここで、音響特徴ベクトル抽出部111によって抽出される音響特徴ベクトルz_n の次元数と、言語ベクトル算出部112によって算出される言語ベクトルw_n の次元数とは、等しい必要がある。すなわち、音響特徴ベクトルz_n は、言語ベクトルw_n の次元数と等しい次元数のベクトルである。
類似度算出部113は、音響特徴ベクトルz_n と言語ベクトルw_n との類似度d(z_n,w_n)を算出し、その類似度を出力する。d(,)は、類似度を求めるための類似度関数である。類似度関数として、例えば、コサイン類似度、平均二乗誤差(MSE:Mean Squared Error)や平均絶対値誤差(MAE:Mean Absolute Error )等の任意の誤差関数が用いられる。
パラメータ更新部114は、その誤差関数を用いて、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。
パラメータ記憶部103が初期状態で記憶しているパラメータΘの初期値は、例えば、乱数やその他のデータから予め学習したパラメータである。
パラメータ更新部114は、上記の誤差関数に基づいて確率的勾配降下法等のニューラルネットワークの学習方法によって、パラメータΘを学習する。このとき、パラメータ更新部114は、音響パターンX_n から抽出された音響特徴ベクトルz_n と、その音響パターンX_n と組をなすラベルから算出された言語ベクトルw_n との類似度d(z_n,w_n)が大きくなるように、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。
パラメータ更新部114は、パラメータΘを学習すると、パラメータ記憶部103に記憶されているパラメータを、新たに学習したパラメータΘに更新する。
パラメータ記憶部103に記憶されているパラメータが更新されると、音響特徴ベクトル抽出部111は、更新後のパラメータを用いて、再度、音響特徴ベクトルz_n を抽出する。パラメータΘは、類似度d(z_n,w_n)が大きくなるように学習されている。このパラメータを用いて抽出された音響特徴ベクトルは、ラベルの意味的な距離を算出可能なベクトルと同一空間上のベクトルとして抽出される。そして、この音響特徴ベクトルは、学習時に用いられたラベルとの意味的な距離を反映したベクトルとなっている。
音響特徴ベクトル抽出部111がパラメータ記憶部103に記憶されているパラメータを用いて音響特徴ベクトルz_n を抽出する処理、類似度算出部113が類似度d(z_n,w_n)を算出する処理、パラメータ更新部114がパラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータを、新たに学習したパラメータΘに更新する処理は、所定の収束条件を満たすまで繰り返される。収束条件として、例えば、上記の処理の繰り返し数が所定数に達したという条件や、類似度d(z_n,w_n)が所定値以上になったという条件等を用いることができる。
次に、図1に示す音響特徴ベクトル抽出部104、類似度算出部105、識別部106について説明する。なお、パラメータ記憶部103には、学習部101によって学習されたパラメータΘが記憶されているものとする。
音響特徴ベクトル抽出部104には、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。音響特徴ベクトル抽出部104に入力される音響パターンX_* は、音響イベントが不明である音響信号に基づいて、予め導出されているものとする。音響信号に基づいて音響パターンを求める方法の一例については、既に説明しているので、ここでは説明を省略する。
音響特徴ベクトル抽出部104は、パラメータ記憶部103に記憶されているパラメータΘを用いて、音響パターンX_* から、音響特徴ベクトルz_* を抽出する。音響特徴ベクトル抽出部104がパラメータΘを用いて音響パターンから音響特徴ベクトルを抽出する動作は、音響特徴ベクトル抽出部111(図2参照)がパラメータΘを用いて音響パターンから音響特徴ベクトルを抽出する動作と同様である。
類似度算出部105は、識別結果の候補として予め定められた音響イベントのラベルを複数個、予め保持している。類似度算出部105は、そのラベル毎に、言語ベクトルモデル記憶部102に記憶されている言語ベクトルモデルに基づいて、ラベルから言語ベクトルを算出する。類似度算出部105は、さらに、そのラベル毎に、算出した言語ベクトルと、音響特徴ベクトル抽出部104によって抽出された音響特徴ベクトルz_* との類似度を算出する。なお、類似度算出部105が言語ベクトルと音響特徴ベクトルとの類似度を算出する動作は、類似度算出部113(図2参照)が言語ベクトルと音響特徴ベクトルとの類似度を算出する動作と同様である。識別結果の候補として予め定められた音響イベントのラベルのインデックス番号をm で表す。識別結果の候補として予め定められた音響イベントのラベルの総数をM とすると、m は、1からM までの整数となる。類似度算出部105によってm 番目のラベルから算出された言語ベクトルをw(m)と記す。
なお、音響特徴ベクトル抽出部104によって抽出される音響特徴ベクトルz_* の次元数と、類似度算出部105がラベル毎に算出する各言語ベクトルの次元数とは、等しい必要がある。すなわち、音響特徴ベクトルz_* は、類似度算出部105がラベル毎に算出する各言語ベクトルの次元数と等しい次元数のベクトルである。
類似度算出部105は、ラベル毎に算出した類似度d(z_*,w(m)) を要素とするベクトルR_*(以下、類似度ベクトルR_* と記す。)を生成する。
例えば、識別結果の候補として予め定められた音響イベントのラベルが、「音楽」、「音声」および「銃声」の3つであったとする。この場合、w(1),w(2),w(3)は、それぞれ、「音楽」から算出された言語ベクトル、「音声」から算出された言語ベクトル、「銃声」から算出された言語ベクトルである。そして、類似度ベクトルR_* は、3つの要素を持つベクトル[d(z_*, w(1)),d(z_*, w(2)),d(z_*, w(3))]と表現される。
類似度算出部105は、類似度ベクトルR_* を識別部106に送る。
識別部106は、類似度ベクトルR_* に基づいて、音響パターンX_* に応じた音響イベントのラベルを識別する。識別部106は、例えば、識別結果の候補として予め定められた音響イベントのラベルのうち、類似度ベクトルR_* の要素の中で最大の要素に対応するラベルを、音響パターンX_* に応じた音響イベントのラベルL_* として決定してもよい。
また、識別結果として1つのラベルL_* を決定するのではなく、識別部106は、類似度ベクトルR_* の個々の要素に対応する個々のラベルを、類似度ベクトルR_* の要素の値の降順にソートし、類似度ベクトルR_* の要素の値の降順にソートした各ラベルを、識別結果として出力してもよい。
また、識別部106は、類似度ベクトルR_* をサポートベクトルマシンやニューラルネットワーク等の識別器に適用することによって、音響パターンX_* に応じた音響イベントのラベルL_* を識別してもよい。この場合、識別器を、予め、音響パターンX_n とラベルL_n との組等を用いて、予め機械学習によって学習しておけばよい。
音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む学習部101は、例えば、学習プログラムに従って動作するコンピュータのCPU(Central Processing Unit )によって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体から学習プログラムを読み込み、学習プログラムに従って、音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む学習部101として動作すればよい。
また、音響特徴ベクトル抽出部104、類似度算出部105および識別部106は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体からパターン認識プログラムを読み込み、パターン認識プログラムに従って、音響特徴ベクトル抽出部104、類似度算出部105および識別部106として動作すればよい。
パラメータ記憶部103および言語ベクトルモデル記憶部102は、例えば、コンピュータが備える記憶装置によって実現される。
次に、第1の実施形態の処理経過について説明する。図3は、学習部101がパラメータΘを学習する際の処理経過の例を示すフローチャートである。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部103は、予め定められたパラメータΘの初期値を記憶しているものとする。
まず、学習部101に、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。
すると、言語ベクトル算出部112は、言語ベクトルモデルに基づいて、ラベルL_n から言語ベクトルw_n を算出する(ステップS1)。
また、音響特徴ベクトル抽出部111は、パラメータ記憶部103に記憶されているパラメータΘを用いて、入力された音響パターンX_n から音響特徴ベクトルz_n を抽出する(ステップS2)。
次に、類似度算出部113は、ステップS2で抽出された音響特徴ベクトルz_n と、ステップS1で算出された言語ベクトルw_n との類似度d(z_n,w_n)を算出する(ステップS3)。
パラメータ更新部114は、類似度算出部113によって算出される類似度d(z_n,w_n)が大きくなるように、パラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータΘを、学習したパラメータΘに更新する(ステップS4)。
そして、パラメータ更新部114は、収束条件が満たされたか否かを判定する(ステップS5)。収束条件が満たされていない場合(ステップS5のNo)、学習部101は、ステップS2〜S5の処理を繰り返す。収束条件が満たされている場合(ステップS5のYes)、学習部101は、パラメータΘの学習を終了する。収束条件の例として、ステップS2〜S5の繰り返し数が所定数に達したという条件や、ステップS3で算出された類似度d(z_n,w_n)が所定値以上になったという条件等を用いることができる。
図4は、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力された場合に、その音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過の例を示すフローチャートである。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部103は、学習部101によって更新されたパラメータΘを記憶しているものとする。
まず、音響特徴ベクトル抽出部104に、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。
すると、音響特徴ベクトル抽出部104は、パラメータ記憶部103に記憶されているパラメータΘを用いて、入力された音響パターンX_* から音響特徴ベクトルz_* を抽出する(ステップS11)。
次に、類似度算出部105は、識別結果の候補として予め定められた音響イベントのラベル毎に、ラベルから言語ベクトルw(m)を算出する。そして、類似度算出部105は、ラベル毎に、音響特徴ベクトルz_* と言語ベクトルw(m)との類似度を算出する(ステップS12)。
類似度算出部105は、ステップS12でラベル毎に算出した類似度を要素とする類似度ベクトルR_* を生成する(ステップS13)。
識別部106は、その類似度ベクトルR_* に基づいて、入力された音響パターンX_* に応じた音響イベントのラベルを識別する(ステップS14)。
本実施形態によれば、パラメータ更新部114は、音響特徴ベクトルz_n と言語ベクトルw_n との類似度d(z_n,w_n)が大きくなるように、パラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータを、学習したパラメータΘに更新する。そして、そのパラメータを用いて音響パターンから抽出される音響特徴ベクトルは、ラベルとの意味的な距離を反映したベクトルとなっている。本実施形態における音響特徴ベクトル抽出部104(図1参照)は、そのような音響特徴ベクトルを抽出することができる。例えば、類似する音響パターンが2つ存在し、一方の音響パターンに対応する音響イベント(Aとする。)と、もう一方の音響パターンに対応する音響イベントとは類似していないとする。この場合、一方の音響パターンから抽出される音響特徴ベクトルは、音響イベントAのラベルとの意味的な距離が小さいベクトルとなり、もう一方の音響パターンから抽出される音響イベントベクトルは、音響イベントAのラベルとの意味的な距離が大きいベクトルになる。このように、音響パターンが類似していたとしても、正解となるラベル応じて異なる音響特徴ベクトルが抽出される。従って、入力された音響パターンX_* から音響イベントのラベルを識別する際の識別精度を高くすることができる。
従って、本実施形態では、与えられた音響パターンから音響イベントを識別する際の識別精度を向上させることができるパラメータΘを学習することができる。そして、与えられた音響パターンから音響イベントを高い精度で識別することができる。
次に、第1の実施形態の変形例を説明する。
上記の第1の実施形態では、パターン認識システム100(図1参照)内におけるパターン認識装置に相当する部分が、類似度算出部105(図1参照)を備える構成を示した。パターン認識システム100が類似度算出部105を備えない構成であってもよい。この場合、類似度算出部105が設けられていないので、類似度ベクトルR_* は生成されなくてよい。
また、この場合、識別部106は、音響特徴ベクトル抽出部104が音響パターンX_* から抽出した音響特徴ベクトルz_* を識別器に適用することによって、音響パターンX_* に応じた音響イベントのラベルL_* を識別すればよい。この識別器は、音響パターンX_n とラベルL_n との組等を用いて、予め機械学習によって学習しておけばよい。その他の点は、第1の実施形態と同様である。
この場合でも、音響特徴ベクトルz_* は、ラベルとの意味的な距離を反映したベクトルとなっているので、上記と同様の効果が得られる。
また、第1の実施形態では、本発明の学習装置と、本発明のパターン認識装置とを包含するパターン認識システム100(図1参照)を示した。本発明の学習装置と、本発明のパターン認識装置とが、それぞれ独立した装置であってもよい。
図5は、本発明の学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。図1に示す要素と同様の要素については、図1と同一の符号を付し、説明を省略する。学習装置150は、学習部101と、言語ベクトルモデル記憶部102と、パラメータ記憶部103とを備える。学習部101は、図2に示すように、音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む。これらの各要素は、上記の第1の実施形態で説明した各要素と同様であり、説明を省略する。図5に示す学習装置150によっても、与えられた音響パターンから音響イベントを識別する際の識別精度を向上させることができるパラメータΘを学習することができる。
図6は、本発明のパターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。図1に示す要素と同様の要素については、図1と同一の符号を付し、説明を省略する。パターン認識装置160は、音響特徴ベクトル抽出部104と、類似度算出部105と、識別部106と、パラメータ記憶部103Sと、言語ベクトルモデル記憶部102とを備える。パラメータ記憶部103Sは、学習装置で学習されたパラメータΘを記憶する記憶装置である。例えば、図5に示す学習装置150で学習され、図5に示すパラメータ記憶部103に記憶されたパラメータを、パターン認識装置160のパラメータ記憶部103Sにコピーすればよい。図6に示すパターン認識装置160によっても、与えられた音響パターンから音響イベントを高い精度で識別することができる。
実施形態2.
第2の実施形態では、パラメータの学習のために与えられるラベルは、音響イベントのカテゴリの階層毎に定められたラベルである。第2の実施形態では、まず、音響イベントのカテゴリの階層毎に定められたラベルについて、具体例を示して説明する。
音響イベントとして、(A)「男性の悲鳴」、(B)「男性の歓声」、(C)「女性の悲鳴」、(D)「ギターロック音楽」を考える。この場合、(A),(B),(C)は、広い意味では、全て「人間の声」というカテゴリに該当する。また、(D)は、広い意味では、「音楽」というカテゴリに該当する。また、(A),(B)は、「人間の声」の下位の、「男声」というカテゴリに該当し、(C)は、「人間の声」の下位の、「女声」というカテゴリに該当する。そして、(A)は、「男声」の下位の、「男性の悲鳴」に該当する。また、(D)は、「音楽」の下位の「ロック音楽」に該当し、さらに「ロック音楽」の下位の「ギターロック音楽」に該当する。
上記の例から分かるように、意味の広さでカテゴリを階層化することができる。カテゴリの意味が広いほど上位の階層となり、カテゴリの意味が狭いほど下位の階層となる。そして、カテゴリの階層毎に、ラベルとなる文字列を定めることができる。従って、音響イベントのカテゴリの階層毎に定められたラベルを、学習に用いるラベルとすることができる。例えば、上記の(A)のラベルL は、L={人間の声、男声、男性の悲鳴}と表すことができる。上記の(B)のラベルL は、L={人間の声、男声、男性の歓声}と表すことができる。上記の(C)のラベルL は、L={人間の声、女声、女性の悲鳴}と表すことができる。上記の(D)のラベルL は、L={音楽、ロック音楽、ギターロック音楽}と表すことができる。第2の実施形態では、このように階層構造を有するラベルを学習に用いる。また、識別結果として得られるラベルも、階層構造を有する。ここでは、階層の数を“3”としたが、任意の粒度で階層の数を定めてもよい。そして、学習に用いるラベルでは、階層毎に、階層に応じた文字列が定められていればよい。また、いずれのラベルでも、カテゴリの階層の数は等しく定められる。
以下の説明では、ラベルが3階層で表される場合を例にして説明する。すなわち、各ラベルにおいて、カテゴリの階層の数が3である場合を例にして説明する。ただし、階層の数は3に限定されない。
図7は、第2の実施形態におけるパターン認識システムの構成例を示すブロック図である。第2の実施形態のパターン認識システム200は、学習部201と、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cと、特徴抽出部204と、類似度算出部205と、識別部206とを備える。
学習部201と、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cとを含む部分が、学習装置に相当する。また、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cと、特徴抽出部204と、類似度算出部205と、識別部206とを含む部分が、パターン認識装置に相当する。図7に示す例では、パターン認識システム200内で、学習装置とパターン認識装置とが、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cとを共有する場合を示している。
学習部201には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。このラベルL_n は、階層構造を有するラベルであり、L_n={L_n1,L_n2,L_n3}と表される。L_n1は、最上位階層のラベルであり、L_n2は2番目の階層のラベルであり、L_n3は3番目の階層のラベルである。上位の階層ほど、ラベルの意味が広く、下位の階層ほど、ラベルの意味が狭い。音響パターンX_n とラベルL_n との組{X_n, L_n}は、音響イベントが既知である音響信号に基づいて、予め導出されているものとする。音響信号に基づいて音響パターンを求める方法の一例については、第1の実施形態で既に説明しているので、ここでは説明を省略する。
学習部201は、カテゴリの階層別に、パラメータを学習する。学習部201の詳細については、後述する。
パラメータ記憶部203aは、最上位階層に対応するパラメータを記憶する記憶装置である。パラメータ記憶部203bは、2番目の階層に対応するパラメータを記憶する記憶装置である。パラメータ記憶部203cは、3番目の階層に対応するパラメータを記憶する記憶装置である。このように、第2の実施形態では、カテゴリの階層別に、パラメータ記憶部203a,203b,203cが設けられる。
言語ベクトルモデル記憶部202は、言語ベクトルモデルを記憶する記憶装置である。言語ベクトルモデル記憶部202は、第1の実施形態における言語ベクトルモデル記憶部102と同様である。
特徴抽出部204には、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。そして、特徴抽出部204は、階層別に、音響特徴ベクトルz_*1,z_*2,z_*3を抽出する。特徴抽出部204の詳細については、後述する。
類似度算出部205は、階層別に抽出された音響特徴ベクトルz_*1,z_*2,z_*3に基づいて、階層別に類似度ベクトルを生成する。
具体的には、類似度算出部205は、階層別に、識別結果の候補として予め定められた音響イベントのラベルを複数個、予め保持している。そして、類似度算出部205は、階層別に、保持しているラベル毎に、言語ベクトルモデル記憶部202に記憶されている言語ベクトルモデルに基づいて、ラベルから言語ベクトルを算出する。
さらに、類似度算出部205は、階層別に、ラベル毎に算出したそれぞれの言語ベクトルと、音響特徴ベクトルとの類似度を算出する。そして、類似度算出部205は、階層別に、算出した類似度を要素とする類似度ベクトルを生成する。例えば、類似度算出部205は、最上位階層に対して予め定められていた各ラベルから算出した各言語ベクトルと、最上位階層に対応する音響特徴ベクトルz_*1との類似度をそれぞれ算出し、その類似度を要素とする類似度ベクトルを生成する。類似度算出部205は、他の各階層についても同様に、類似度ベクトルを生成する。
識別部206は、階層別に生成された各類似度ベクトルに基づいて、階層別にラベルを識別する。個々の階層において、類似度ベクトルに基づいてラベルを識別する方法は、第1の実施形態で説明した方法と同様でよい。
例えば、識別部206は、類似度ベクトルの要素のうち、最大の要素に対応するラベルを特定する処理を、階層別に行ってもよい。
また、例えば、識別部206は、類似度ベクトルの個々の要素に対応する個々のラベルを、類似度ベクトルの要素の値の降順にソートし、類似度ベクトルの要素の値の降順にソートした各ラベルを識別結果として定める処理を、階層別に行ってもよい。
また、例えば、識別部206は、類似度ベクトルを識別器に適用することによってラベルを特定する処理を、階層別に行ってもよい。この場合、識別器は、階層毎に予め学習しておけばよい。
図8は、第2の実施形態における学習部201の構成例を示すブロック図である。図8では、学習部201とともに、言語ベクトルモデル記憶部202およびパラメータ記憶部203a,203b,203cも図示している。
学習部201は、階層別に、音響特徴ベクトル抽出部211と、言語ベクトル算出部212と、類似度算出部213と、パラメータ更新部214とを備える。以下、最上位階層に対応する各要素(音響特徴ベクトル抽出部211、言語ベクトル算出部212、類似度算出部213、パラメータ更新部214)は、各符号に添え字“a”を付して表わす。同様に、2番目の階層に対応する各要素は、各符号に添え字“b”を付して表わし、3番目の階層に対応する各要素は、各符号に添え字“c”を付して表わす。
各階層の音響特徴ベクトル抽出部211は、与えられた音響パターンX_n または1つ上位の階層の音響特徴ベクトル抽出部によって抽出された音響特徴ベクトルから、音響特徴ベクトル抽出部211自身の階層における音響特徴ベクトルを抽出する。
具体的には、最上位階層の音響特徴ベクトル抽出部211aは、最上位階層におけるパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、与えられた音響パターンX_n から、音響特徴ベクトルz_n1を抽出する。音響特徴ベクトルz_n1は、最上位階層における音響特徴ベクトルである。音響特徴ベクトル抽出部211aは、音響特徴ベクトルz_n1を、音響特徴ベクトル抽出部211aの階層(最上位階層)における類似度算出部213aに送るとともに、1つ下位の階層の音響特徴ベクトル抽出部211bに送る。
また、最上位階層以外の各階層の音響特徴ベクトル抽出部211(ここでは、音響特徴ベクトル抽出部211bを例にして説明する。)は、その音響特徴ベクトル抽出部211bの階層におけるパラメータ(パラメータ記憶部203bに記憶されているパラメータ)を用いて、その音響特徴ベクトル抽出部211bの1つ上位の階層の音響特徴ベクトル抽出部211aによって抽出された音響特徴ベクトルz_n1から、その音響特徴ベクトル抽出部211bの階層における音響特徴ベクトルz_n2を抽出する。音響特徴ベクトル抽出部211bは、その音響特徴ベクトルz_n2を、音響特徴ベクトル抽出部211bの階層における類似度算出部213bに送るとともに、1つ下位の階層の音響特徴ベクトル抽出部211cに送る。
ここでは、最上位階層以外の音響特徴ベクトル抽出部211として、音響特徴ベクトル抽出部211bを例にして説明したが、音響特徴ベクトル抽出部211cの動作も同様である。ただし、1つ下位の階層の音響特徴ベクトル抽出部211が存在しない場合には、1つ下位の階層の音響特徴ベクトル抽出部211に音響特徴ベクトルを送らなくてよい。
各階層の音響特徴ベクトル抽出部211a,211b,211cは、いずれも、ベクトルまたは二次元以上の配列で表される情報から、音響特徴ベクトルを抽出する構成である。
各階層の言語ベクトル算出部212は、言語ベクトルモデル記憶部202に記憶されている言語ベクトルモデルに基づいて、与えられたL_n 内のラベルL_n1,L_n2,L_n3のうち、言語ベクトル算出部212自身の階層に対応するラベルから、言語ベクトルを算出する。そして、言語ベクトル算出部212は、その言語ベクトル算出部212の階層における類似度算出部213に言語ベクトルを送る。
例えば、最上位階層の言語ベクトル算出部212aは、言語ベクトルモデルに基づいて、L_n={L_n1,L_n2,L_n3}におけるL_n1から言語ベクトルを算出し、その言語ベクトルを類似度算出部213aに送る。
他の階層の言語ベクトル算出部212b,212cの動作も同様である。なお、各階層の言語ベクトル算出部212が言語ベクトルモデルに基づいてラベルから言語ベクトルを算出する動作は、第1の実施形態における言語ベクトル算出部112が言語ベクトルを算出する動作と同様である。
各階層の類似度算出部213は、類似度算出部213の階層の音響特徴ベクトル抽出部211および言語ベクトル算出部212から送られた音響特徴ベクトルと言語ベクトルとの類似度を算出する。
例えば、最上位階層の類似度算出部213aは、音響特徴ベクトル抽出部211aから送られた音響特徴ベクトルz_n1と、言語ベクトル算出部212aから送られた言語ベクトルとの類似度を算出する。
他の階層の類似度算出部213b,213cの動作も同様である。なお、各階層の類似度算出部213が音響特徴ベクトルと言語ベクトルの類似度を算出する動作は、第1の実施形態における類似度算出部113が音響特徴ベクトルと言語ベクトルの類似度を算出する動作と同様である。
各階層のパラメータ更新部214は、パラメータ更新部214自身の階層の類似度算出部213が算出する類似度(音響特徴ベクトルと言語ベクトルの類似度)が大きくなるように、その階層のパラメータ(音響特徴ベクトルを抽出するためのパラメータ)を学習する。そして、パラメータ更新部214は、その階層のパラメータ記憶部203に記憶されているパラメータを、学習したパラメータに更新する。
例えば、最上位階層のパラメータ更新部214aは、類似度算出部213aが算出する類似度が大きくなるように、最上位階層のパラメータを学習し、パラメータ記憶部203aに記憶されているパラメータを、学習したパラメータに更新する。
他の階層のパラメータ更新部214b,214bの動作も同様である。なお、各階層のパラメータ更新部214がパラメータを学習する動作は、第1の実施形態におけるパラメータ更新部214がパラメータを学習する動作と同様である。
図9は、特徴抽出部204の構成例を示すブロック図である。図9では、特徴抽出部204とともに、パラメータ記憶部203a,203b,203cおよび類似度算出部205も図示している。
特徴抽出部204は、階層別に、音響特徴ベクトル抽出部251を備える。以下、最上位階層に対応する音響特徴ベクトル抽出部251は、符号“251”に添え字“a”を付して表す。同様に、2番目の階層に対応する音響特徴ベクトル抽出部251は、符号“251”に添え字“b”を付して表し、3番目の階層に対応する音響特徴ベクトル抽出部251は、符号“251”に添え字“c”を付して表わす。
各階層の音響特徴ベクトル抽出部251は、与えられた音響パターンX_* または1つ上位の階層の音響特徴ベクトル抽出部によって抽出された音響特徴ベクトルから、音響特徴ベクトル抽出部251自身の階層における音響特徴ベクトルを抽出する。
具体的には、最上位階層の音響特徴ベクトル抽出部251aは、最上位階層におけるパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、与えられた音響パターンX_* から、音響特徴ベクトルz_*1を抽出する。音響パターンX_* は、対応する音響イベントのラベルが不明となっている音響パターンである。音響特徴ベクトルz_*1は、最上位階層における音響特徴ベクトルである。音響特徴ベクトル抽出部251aは、音響特徴ベクトルz_*1を類似度算出部205に送るとともに、1つ下位の階層の音響特徴ベクトル抽出部251bに送る。
また、最上位階層以外の各階層の音響特徴ベクトル抽出部251(ここでは、音響特徴ベクトル抽出部251bを例にして説明する。)は、その音響特徴ベクトル抽出部251bの階層におけるパラメータ(パラメータ記憶部203bに記憶されているパラメータ)を用いて、その音響特徴ベクトル抽出部251bの1つ上位の階層の音響特徴ベクトル抽出部251aによって抽出された音響特徴ベクトルz_*1から、その音響特徴ベクトル抽出部251bの階層における音響特徴ベクトルz_*2を抽出する。音響特徴ベクトル抽出部251bは、その音響特徴ベクトルz_*2を類似度算出部205に送るとともに、1つ下位の階層の音響特徴ベクトル抽出部251cに送る。
ここでは、最上位階層以外の音響特徴ベクトル抽出部251として、音響特徴ベクトル抽出部251bを例にして説明したが、音響特徴ベクトル抽出部251cの動作も同様である。ただし、1つ下位の階層の音響特徴ベクトル抽出部251が存在しない場合には、1つ下位の階層の音響特徴ベクトル抽出部251に音響特徴ベクトルを送らなくてよい。
音響特徴ベクトル抽出部211a,211b,211cと、言語ベクトル算出部212a,212b,212cと、類似度算出部213a,213b,213cと、パラメータ更新部214a,214b,214cとを含む学習部201は、例えば、学習プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体から学習プログラムを読み込み、学習プログラムに従って、音響特徴ベクトル抽出部211a,211b,211cと、言語ベクトル算出部212a,212b,212cと、類似度算出部213a,213b,213cと、パラメータ更新部214a,214b,214cとを含む学習部201として動作すればよい。
また、音響特徴ベクトル抽出部251a,251b,251cを含む特徴抽出部204、類似度算出部205および識別部206は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体からパターン認識プログラムを読み込み、パターン認識プログラムに従って、特徴抽出部204、類似度算出部205および識別部206として動作すればよい。
また、パラメータ記憶部203a,203b,203cおよび言語ベクトルモデル記憶部102は、例えば、コンピュータが備える記憶装置によって実現される。
次に、第2の実施形態の処理経過について説明する。図10は、1つの階層に着目した場合における学習部201内のその階層に対応する要素の処理経過の例を示すフローチャートである。図10では、最上位階層に着目した場合の例を示している。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部203a,203b,203bは、それぞれ、予め定められたパラメータの初期値を記憶しているものとする。
また、学習部201には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n={L_n1,L_n2,L_n3}との組が入力されているものとする。
言語ベクトル算出部212aは、言語ベクトルモデルに基づいて、最上位階層に対応するラベルL_n1から言語ベクトルを算出する(ステップS21)。
また、音響特徴ベクトル抽出部211aは、最上位階層に対応するパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、入力された音響パターンX_n から音響特徴ベクトルz_n1を抽出する(ステップS22)。
次に、類似度算出部213aは、ステップS22で抽出された音響特徴ベクトルz_n1と、ステップS21で算出された言語ベクトルとの類似度を算出する(ステップS23)。
パラメータ更新部214aは、類似度算出部213aによって算出される類似度が大きくなるように、パラメータを学習し、パラメータ記憶部203aに記憶されているパラメータを、学習したパラメータに更新する(ステップS24)。
そして、パラメータ更新部214aは、収束条件が満たされたか否かを判定する(ステップS25)。収束条件が満たされていない場合(ステップS25のNo)、ステップS22〜S25の処理を繰り返す。収束条件が満たされている場合(ステップS25のYes)、音響特徴ベクトル抽出部211aは、直近のステップS22で抽出した音響特徴ベクトルz_n1を1つ下位の階層の音響特徴ベクトル抽出部211bに送り(ステップS26)、処理を終了する。
最上位階層以外の各階層においても、ステップS21〜S26と同様の処理が行われる。ただし、最上位階層以外の各階層では、ステップS22に相当する処理として、音響特徴ベクトル抽出部211は、その音響特徴ベクトル抽出部211の階層に対応するパラメータを用いて、その階層よりも1つ上位の階層で抽出された音響特徴ベクトルから、音響特徴ベクトルを抽出する。他の点に関しては、ステップS21〜S26と同様である。
次に、対応する音響イベントのラベルが不明となっている音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過について説明する。なお、パラメータ記憶部203a,203b,203cはそれぞれ、学習部201によって更新されたパラメータを記憶しているものとする。
音響パターンX_* が特徴抽出部204に入力されると、最上位階層に対応する音響特徴ベクトル抽出部251aが、最上位階層に対応するパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、音響パターンX_* から、音響特徴ベクトルz_*1を抽出する。音響特徴ベクトル抽出部251aは、その音響特徴ベクトルz_*1を1つ下位の階層の音響特徴ベクトル抽出部251bに送るとともに、類似度算出部205に送る。
2番目の階層の音響特徴ベクトル抽出部251bは、その階層に対応するパラメータ(パラメータ記憶部203bに記憶されているパラメータ)を用いて、1つ上位の階層で抽出された音響特徴ベクトルz_*1から、音響特徴ベクトルz_*2を抽出する。音響特徴ベクトル抽出部251bは、その音響特徴ベクトルz_*2を1つ下位の階層の音響特徴ベクトル抽出部251cに送るとともに、類似度算出部205に送る。
3番目以降の階層の音響特徴ベクトル抽出部251も同様の処理を行う。なお、1つ下位の階層の音響特徴ベクトル抽出部251が存在しない場合には、類似度算出部205に音響特徴ベクトルを送ればよい。図9に示す例では、音響特徴ベクトル抽出部251cは、音響特徴ベクトルz_*2から抽出した音響特徴ベクトルz_*3を類似度算出部205に送ればよい。
この結果、類似度算出部205は、各階層で抽出された音響特徴ベクトルz_*1,z_*2,z_*3,を得る。この後、類似度算出部205および識別部206(図7参照)は、階層別に、第1の実施形態におけるステップS12〜S14(図4参照)と同様の処理を実行すればよい。ステップS12〜S14については、第1の実施形態で説明しているので、ここでは説明を省略する。また、階層別に、第1の実施形態におけるステップS12〜S14と同様の処理を実行する場合、類似度算出部205および識別部206は、階層毎の処理を並列に実行してもよい。
第2の実施形態によれば、最上位階層の音響特徴ベクトル抽出部211aによって抽出される音響特徴ベクトルz_n1は、例えば、前述の例における「人間の声」や「音楽」との意味的な違いを捉えた音響特徴ベクトルとなっている。そして、2番目の階層で、その音響特徴ベクトルz_n1から抽出される音響特徴ベクトルz_n2は、例えば、前述の例における「男声」や「女声」との意味的な違いを捉えた音響特徴ベクトルとなっている。
このように、第2の実施形態では、学習部201において、各層で抽出される音響特徴ベクトルは、異なるラベルが持つ意味的な違いをより際立たせたものとなる。この点は、特徴抽出部204において、各層で抽出される音響特徴ベクトルでも同様である。従って、第2の実施形態では、音響イベントの識別精度をより向上させることができるパラメータを階層別に学習することができる。そして、与えられた音響パターンから音響イベントを、階層別に、より高い精度で識別することができる。
次に、第2の実施形態の変形例を説明する。第1の実施形態の変形例と同様に、パターン認識システム200(図7参照)が類似度算出部205を備えない構成であってもよい。この場合、類似度算出部205が設けられないので、各階層の類似度ベクトルは生成されない。
この場合、識別部206は、階層別に、音響特徴ベクトルを識別器に適用することによって、音響イベントのラベルを識別すればよい。例えば、識別部206は、最上位階層の音響特徴ベクトルz_*1を識別器に適用することによって、最上位階層のラベルを識別すればよい。識別部206は、他の各階層に関しても、同様にラベルを識別すればよい。また、識別器は、予め、階層別に機械学習によって学習しておけばよい。その他の点は、第2の実施形態と同様である。
この場合でも、上記と同様の効果が得られる。
また、第2の実施形態において、学習装置と、パターン認識装置とが、それぞれ独立した装置であってもよい。
図11は、第2の実施形態において、学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。図7に示す要素と同様の要素については、図7と同一の符号を付し、説明を省略する。学習装置250は、学習部201と、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cとを備える。学習部201は、図8に示すように、階層別に、音響特徴ベクトル抽出部211と、言語ベクトル算出部212と、類似度算出部213と、パラメータ更新部214とを含む。これらの要素は、上記の第2の実施形態で説明した各要素と同様であり、説明を省略する。学習装置250によっても、音響イベントの識別精度をより向上させることができるパラメータを階層別に学習することができる。
図12は、第2の実施形態において、パターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。図7に示す要素と同様の要素については、図7と同一の符号を付し、説明を省略する。パターン認識装置260は、特徴抽出部204と、類似度算出部205と、識別部206を、パラメータ記憶部203Sa,203Sb,203Scと、言語ベクトルモデル記憶部202とを備える。パラメータ記憶部203Sa,203Sb,203Scは、学習装置で学習されたパラメータを記憶する記憶装置である。例えば、学習装置250(図11参照)で学習され、図11に示すパラメータ記憶部203a,203b,203cに記憶されたパラメータをそれぞれ、パターン認識装置260のパラメータ記憶部203Sa,203Sb,203Scにコピーすればよい。また、特徴抽出部204は、図9に示すように、階層別に音響特徴ベクトル抽出部251を含む。パターン認識装置260によっても、与えられた音響パターンから音響イベントを、階層別に、より高い精度で識別することができる。
なお、既に説明したように、階層の数は3に限定されない。
また、本発明の各実施形態では、音響信号を例にして説明した。本発明は、振動センサから得られる時系列振動信号等の任意の信号に適用することができる。
図13は、各実施形態におけるパターン認識システム(独立した学習装置や独立したパターン認識装置であってもよい。)に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。
各実施形態におけるパターン認識システム(独立した学習装置や独立したパターン認識装置であってもよい。)は、コンピュータ1000に実装され、その動作は、プログラムの形式で補助記憶装置1003に記憶されている。CPU1001は、そのプログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って、上記の各実施形態やその変形例で説明した動作を実行する。
補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory )、DVD−ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、プログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。
また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。
また、各構成要素の一部または全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本発明の概要について説明する。図14は、本発明の学習装置の概要を示すブロック図である。本発明の学習装置は、音響特徴抽出手段82と、言語ベクトル算出手段83と、類似度算出手段84と、パラメータ更新手段85とを備える。
音響特徴抽出手段82(例えば、音響特徴ベクトル抽出部111、音響特徴ベクトル抽出部211a,211b,211c)は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴(例えば、音響特徴ベクトル)を抽出する。
言語ベクトル算出手段83(例えば、言語ベクトル算出部112、言語ベクトル算出部212a,212b,212c)は、音響信号の発生源の属性(例えば、音響イベント)を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する。
類似度算出手段84(例えば、類似度算出部113、類似度算出部213a,213b,213c)は、音響特徴と言語ベクトルとの類似度を算出する。
パラメータ更新手段85(例えば、パラメータ更新部114、パラメータ更新部214a,214b,214c)は、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新する。
そのような構成により、音響パターンから音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる。
また、図15は、本発明のパターン認識装置の概要を示すブロック図である。本発明のパターン認識装置は、音響特徴抽出手段92と、識別手段93とを備える。
音響特徴抽出手段92(例えば、音響特徴ベクトル抽出部104、音響特徴ベクトル抽出部251a,251b,251c)は、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性(例えば、音響イベント)を示すラベルとの組に基づいて学習された、音響パターンから音響特徴(例えば、音響特徴ベクトル)を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する。
識別手段93(例えば、識別部106、識別部206)は、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する。
そのような構成により、音響パターンから音響イベントを高い精度で識別することができる。
上記の本発明の各実施形態は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出手段と、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出手段と、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備える
ことを特徴とする学習装置。
(付記2)
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
カテゴリの階層別に、
予め与えられたパラメータを記憶するパラメータ記憶手段と、
音響特徴抽出手段と、
言語ベクトル算出手段と、
類似度算出手段と、
パラメータ更新手段とを備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
各階層の言語ベクトル算出手段は、当該言語ベクトル算出手段に対応する階層のラベルから言語ベクトルを算出し、
各階層の類似度算出手段は、当該類似度算出手段に対応する階層の音響特徴抽出手段によって抽出された音響特徴と、当該類似度算出手段に対応する階層の言語ベクトル算出手段によって算出された言語ベクトルとの類似度を算出し、
各階層のパラメータ更新手段は、当該パラメータ更新手段に対応する階層の類似度算出手段によって算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
付記1に記載の学習装置。
(付記3)
音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
付記1または付記2に記載の学習装置。
(付記4)
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備える
ことを特徴とするパターン認識装置。
(付記5)
識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出手段によって抽出された音響特徴との類似度を算出する類似度算出手段を備え、
識別手段は、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
付記4に記載のパターン認識装置。
(付記6)
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
音響特徴抽出手段を階層別に備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
識別手段は、階層別にラベルを識別する
付記4または付記5に記載のパターン認識装置。
(付記7)
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
音響特徴抽出手段を階層別に備え、
最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
類似度算出手段は、階層別に、識別結果の候補として予め定められたラベルを複数個保持し、階層別に、ラベル毎に類似度を算出し、
識別手段は、階層別にラベルを識別する
付記5に記載のパターン認識装置。
(付記8)
音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
付記5または付記7に記載のパターン認識装置。
(付記9)
コンピュータが、
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行する
ことを特徴とする学習方法。
(付記10)
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段が設けられ、
コンピュータが、
カテゴリの階層別に、
音響特徴抽出処理、
言語ベクトル算出処理、
類似度算出処理、および、
パラメータ更新処理を実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出し、
各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出し、
各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
付記9に記載の学習方法。
(付記11)
コンピュータが、
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行する
ことを特徴とするパターン認識方法。
(付記12)
コンピュータが、
識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行し、
識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
付記11に記載のパターン認識方法。
(付記13)
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
音響特徴抽出処理を階層別に実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
識別処理で、階層別にラベルを識別する
付記11または付記12に記載のパターン認識方法。
(付記14)
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
音響特徴抽出処理を階層別に実行し、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
階層別に、識別結果の候補として予め定められたラベルを複数個保持し、類似度算出処理で、階層別に、ラベル毎に類似度を算出し、
識別処理で、階層別にラベルを識別する
付記12に記載のパターン認識方法。
(付記15)
コンピュータに、
予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理
を実行させるための学習プログラム。
(付記16)
与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
コンピュータは、
カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段を備え、
前記コンピュータに、
カテゴリの階層別に、
音響特徴抽出処理、
言語ベクトル算出処理、
類似度算出処理、および、
パラメータ更新処理を実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出させ、
各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出させ、
各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習させ、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新させる
付記15に記載の学習プログラム。
(付記17)
コンピュータに、
音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理
を実行させるためのパターン認識プログラム。
(付記18)
コンピュータは、識別結果の候補として予め定められたラベルを複数個保持し、
前記コンピュータに、
ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行させ、
識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別させる
付記17に記載のパターン認識プログラム。
(付記19)
コンピュータは、
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
前記コンピュータに、
音響特徴抽出処理を階層別に実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
識別処理で、階層別にラベルを識別させる
付記17または付記18に記載のパターン認識プログラム。
(付記20)
コンピュータは、
音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
前記コンピュータに、
音響特徴抽出処理を階層別に実行させ、
最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
前記コンピュータは、
階層別に、識別結果の候補として予め定められたラベルを複数個保持し、
前記コンピュータに、
類似度算出処理で、階層別に、ラベル毎に類似度を算出させ、
識別処理で、階層別にラベルを識別させる
付記18に記載のパターン認識プログラム。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
本発明は、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出するためのパラメータを学習する学習装置や、与えられた音響パターンの基となった音響信号の発生源を識別するパターン認識装置に好適に適用される。
101,201 学習部
102,202 言語ベクトルモデル記憶部
103,203a,203b,203c パラメータ記憶部
104,251a,251b,251c 音響特徴ベクトル抽出部
105,205 類似度算出部
106,206 識別部
111,211a,211b,211c 音響特徴ベクトル抽出部
112,212a,212b,212c 言語ベクトル算出部
113,213a,213b,213c 類似度算出部
114,214a,214b,214c パラメータ更新部

Claims (20)

  1. 予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、
    音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出手段と、
    前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出手段と、
    前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備える
    ことを特徴とする学習装置。
  2. 与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
    カテゴリの階層別に、
    予め与えられたパラメータを記憶するパラメータ記憶手段と、
    音響特徴抽出手段と、
    言語ベクトル算出手段と、
    類似度算出手段と、
    パラメータ更新手段とを備え、
    最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
    最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
    各階層の言語ベクトル算出手段は、当該言語ベクトル算出手段に対応する階層のラベルから言語ベクトルを算出し、
    各階層の類似度算出手段は、当該類似度算出手段に対応する階層の音響特徴抽出手段によって抽出された音響特徴と、当該類似度算出手段に対応する階層の言語ベクトル算出手段によって算出された言語ベクトルとの類似度を算出し、
    各階層のパラメータ更新手段は、当該パラメータ更新手段に対応する階層の類似度算出手段によって算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
    請求項1に記載の学習装置。
  3. 音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
    請求項1または請求項2に記載の学習装置。
  4. 音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、
    前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備える
    ことを特徴とするパターン認識装置。
  5. 識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出手段によって抽出された音響特徴との類似度を算出する類似度算出手段を備え、
    識別手段は、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
    請求項4に記載のパターン認識装置。
  6. 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
    音響特徴抽出手段を階層別に備え、
    最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
    最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
    識別手段は、階層別にラベルを識別する
    請求項4または請求項5に記載のパターン認識装置。
  7. 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
    音響特徴抽出手段を階層別に備え、
    最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
    最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
    類似度算出手段は、階層別に、識別結果の候補として予め定められたラベルを複数個保持し、階層別に、ラベル毎に類似度を算出し、
    識別手段は、階層別にラベルを識別する
    請求項5に記載のパターン認識装置。
  8. 音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
    請求項5または請求項7に記載のパターン認識装置。
  9. コンピュータが、
    予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
    音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
    前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
    前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行する
    ことを特徴とする学習方法。
  10. 与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
    カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段が設けられ、
    コンピュータが、
    カテゴリの階層別に、
    音響特徴抽出処理、
    言語ベクトル算出処理、
    類似度算出処理、および、
    パラメータ更新処理を実行し、
    最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
    最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
    各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出し、
    各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出し、
    各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
    請求項9に記載の学習方法。
  11. コンピュータが、
    音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
    前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行する
    ことを特徴とするパターン認識方法。
  12. コンピュータが、
    識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行し、
    識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
    請求項11に記載のパターン認識方法。
  13. 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
    音響特徴抽出処理を階層別に実行し、
    最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
    最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
    識別処理で、階層別にラベルを識別する
    請求項11または請求項12に記載のパターン認識方法。
  14. 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
    音響特徴抽出処理を階層別に実行し、
    最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
    最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
    階層別に、識別結果の候補として予め定められたラベルを複数個保持し、類似度算出処理で、階層別に、ラベル毎に類似度を算出し、
    識別処理で、階層別にラベルを識別する
    請求項12に記載のパターン認識方法。
  15. コンピュータに、
    予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
    音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
    前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
    前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理
    を実行させるための学習プログラム。
  16. 与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
    コンピュータは、
    カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段を備え、
    前記コンピュータに、
    カテゴリの階層別に、
    音響特徴抽出処理、
    言語ベクトル算出処理、
    類似度算出処理、および、
    パラメータ更新処理を実行させ、
    最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
    最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
    各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出させ、
    各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出させ、
    各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習させ、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新させる
    請求項15に記載の学習プログラム。
  17. コンピュータに、
    音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
    前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理
    を実行させるためのパターン認識プログラム。
  18. コンピュータは、識別結果の候補として予め定められたラベルを複数個保持し、
    前記コンピュータに、
    ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行させ、
    識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別させる
    請求項17に記載のパターン認識プログラム。
  19. コンピュータは、
    音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
    前記コンピュータに、
    音響特徴抽出処理を階層別に実行させ、
    最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
    最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
    識別処理で、階層別にラベルを識別させる
    請求項17または請求項18に記載のパターン認識プログラム。
  20. コンピュータは、
    音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
    前記コンピュータに、
    音響特徴抽出処理を階層別に実行させ、
    最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
    最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
    前記コンピュータは、
    階層別に、識別結果の候補として予め定められたラベルを複数個保持し、
    前記コンピュータに、
    類似度算出処理で、階層別に、ラベル毎に類似度を算出させ、
    識別処理で、階層別にラベルを識別させる
    請求項18に記載のパターン認識プログラム。
JP2020547549A 2018-09-20 2018-09-20 学習装置およびパターン認識装置 Active JP7040628B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/034848 WO2020059084A1 (ja) 2018-09-20 2018-09-20 学習装置およびパターン認識装置

Publications (2)

Publication Number Publication Date
JPWO2020059084A1 true JPWO2020059084A1 (ja) 2021-08-30
JP7040628B2 JP7040628B2 (ja) 2022-03-23

Family

ID=69888582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547549A Active JP7040628B2 (ja) 2018-09-20 2018-09-20 学習装置およびパターン認識装置

Country Status (3)

Country Link
US (1) US11948554B2 (ja)
JP (1) JP7040628B2 (ja)
WO (1) WO2020059084A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4034732A4 (en) 2019-09-25 2023-11-08 Välinge Innovation AB PANEL SET INCLUDING FLEXION GROOVE

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2004287010A (ja) * 2003-03-20 2004-10-14 National Institute Of Advanced Industrial & Technology 波形認識方法及び装置、並びにプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
WO2015120184A1 (en) * 2014-02-06 2015-08-13 Otosense Inc. Instant real time neuro-compatible imaging of signals
US10381022B1 (en) * 2015-12-23 2019-08-13 Google Llc Audio classifier
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
DE112017001830B4 (de) * 2016-05-06 2024-02-22 Robert Bosch Gmbh Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
US9886954B1 (en) * 2016-09-30 2018-02-06 Doppler Labs, Inc. Context aware hearing optimization engine
EP3612984A4 (en) * 2017-04-18 2021-03-24 D5A1 Llc MULTI-LEVEL MACHINE LEARNING AND RECOGNITION
US10963781B2 (en) * 2017-08-14 2021-03-30 Microsoft Technology Licensing, Llc Classification of audio segments using a classification network
US11216724B2 (en) * 2017-12-07 2022-01-04 Intel Corporation Acoustic event detection based on modelling of sequence of event subparts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2004287010A (ja) * 2003-03-20 2004-10-14 National Institute Of Advanced Industrial & Technology 波形認識方法及び装置、並びにプログラム

Also Published As

Publication number Publication date
US20220028372A1 (en) 2022-01-27
US11948554B2 (en) 2024-04-02
WO2020059084A1 (ja) 2020-03-26
JP7040628B2 (ja) 2022-03-23

Similar Documents

Publication Publication Date Title
CN109471938B (zh) 一种文本分类方法及终端
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
Chang et al. A personalized music recommendation system using convolutional neural networks approach
US20160239566A1 (en) System for generation of a large-scale database of hetrogeneous speech
JP7348445B2 (ja) 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
US10614379B2 (en) Robust classification by pre-conditioned lasso and transductive diffusion component analysis
JP2018018330A (ja) データ検索プログラム、データ検索方法およびデータ検索装置
CN111859011B (zh) 音频处理方法、装置、存储介质及电子设备
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
JP7040628B2 (ja) 学習装置およびパターン認識装置
Grzeszick et al. Temporal acoustic words for online acoustic event detection
WO2019092867A1 (ja) 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
Roy et al. Speech emotion recognition using neural network and wavelet features
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
US20230298572A1 (en) Dummy prototypical networks for few-shot open-set keyword spotting
Senan et al. Rough set approach for attributes selection of traditional Malay musical instruments sounds classification
JP6535591B2 (ja) 画像認識装置及び画像認識装置の動作方法
Chatterjee et al. Human emotion recognition from speech in audio physical features
JP6711343B2 (ja) 音声処理装置、音声処理方法及びプログラム
WO2017148523A1 (en) Non-parametric audio classification
Pimenta-Zanon et al. Complex Network-Based Approach for Feature Extraction and Classification of Musical Genres
KR102661876B1 (ko) 합성곱 신경망 기반 오디오 핑거프린트 추출 방법 및 장치
Pentapati et al. Robust speaker recognition systems with adaptive filter algorithms in real time under noisy conditions
JP7452666B2 (ja) 学習方法、装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R151 Written notification of patent or utility model registration

Ref document number: 7040628

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151