JPWO2013008956A1

JPWO2013008956A1 - 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム

Info

Publication number: JPWO2013008956A1
Application number: JP2013524017A
Authority: JP
Inventors: 直毅藤田; 野村　俊之; 俊之野村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-07-14
Filing date: 2012-07-13
Publication date: 2015-02-23
Anticipated expiration: 2032-07-13
Also published as: US20140139739A1; US9215350B2; JP5772957B2; WO2013008956A1

Abstract

フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決してリアルタイムの音響識別や照合ができる装置を提供する。
音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理装置で、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析部と、生成された前記時間周波数平面上に設定された、２つの部分領域の形状と２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出部と、抽出した各部分領域からの領域特徴量を用いて、音響を識別する音響識別子を生成する音響識別子生成部と、を備える。

Description

本発明は、音響の特徴を識別する識別子の生成技術およびその利用技術に関する。なおここで、本明細書における音響とは、音声および楽曲（音楽）を含むあらゆる音を含む概念として使用している。

上記技術分野において、音響の特徴を識別する音響識別子として、音響信号を解析して得られる音響指紋（オーディオ電子指紋）が知られている。
例えば、非特許文献１における音響処理システムは、サンプリングした音響信号から、５〜１０ｍｓシフトしてオーバーラップした２５ｍｓのフレームを切り出す。そして、その音響処理システムは、音響信号に対し高速フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）処理と、対数処理と、離散コサイン変換（ＤＣＴ：ＤｉｓｃｒｅｔｅＣｏｓｉｇｎＴｒａｎｓｆｏｒｍ）処理とを行なって、メル周波数ケプストラムを生成する。その音響処理システムは、メル周波数ケプストラムの低次の１２〜１６次元をメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）として取り出し、その時間差分から音響指紋を生成する。
非特許文献２における音響処理システムは、１１．６ｍｓシフトしてオーバーラップした３７０ｍｓのフレームを切り出す。そして、音響処理システムは、離散フーリエ変換（ＤＦＴ：ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）と、対数処理と、サブバンド分割した平均パワーに対する時間および周波数差分とによって、３２次元で表わされた音響指紋を生成する。
非特許文献３における音響処理システムは、１１．６ｍｓシフトしてオーバーラップした３７０ｍｓのフレームを切り出す。そして、その音響処理システムは、離散ウェーブレット（Ｗａｖｅｌｅｔ）変換と周波数差分および時間差分とによって、３２次元で表わされた音響指紋を生成する。
また、特許文献１における音響処理システムは、オーバーラップした１０〜３０ｍｓのフレームを切り出し、フーリエ変換，メルスケールやバークスケールによる分割，窓関数を用いた平均値算出を経て時間−周波数セグメントを生成する。そして、２次元ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）した後にその低域を音声特徴量とする。
特許文献１における音響処理システムは、例えば、１１２個の要素の音声特徴量が生成されるが、使用時の処理速度を考慮して、低域の３０個の要素を音声認識や話者認識のための音声特徴量として選択する。
また、特許文献２における音響処理システムは、５０％オーバーラップした６４ｍｓのフレームに対してＦＦＴを行なって特徴ベクトルを生成し、例えば、Ｍ＝１３のバンドの隣接バンド対について差分を取り、差分結果に基づいてエンコードしたオーディオ指紋を生成する。

特開２００３−０４４０７７号公報特開２００７−０６５６５９号公報

Ｐ．Ｃａｎｏ，Ｅ．Ｂａｔｌｌｅ，Ｔ．Ｋａｌｋｅｒ，ａｎｄＪ．Ｈａｉｔｓｍａ，"Ａｒｅｖｉｅｗｏｆａｌｇｏｒｉｔｈｍｓｆｏｒａｕｄｉｏｆｉｎｇｅｒｐｒｉｎｔｉｎｇ"，ｉｎＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＭｕｔｉｍｅｄｉａＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｄｅｃ．２００２．ＪａａｐＨａｉｔｓｍａ，ＴｏｎＫｌｋｅｒ"ＡＨｉｇｈｌｙＲｏｂｕｓｔＡｕｄｉｏＦｉｎｇｅｒｐｒｉｎｔｉｎｇＳｙｓｔｅｍ"Ｐｒｏｃ．ＩＳＭＩＲ２００２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ井口寧，ａｎｄＶｉｊａｙＫ．Ｊａｉｎ"適正な音楽流通のためのインターネットを介したオーディオ電子指紋の超高速検出"財団法人電気通信普及財団、研究調査報告書Ｎｏ．２４２００９，ｐ６０４−６１５

しかしながら、上記背景技術における音響処理システムは、時間精度を上げて他の音響との混合に頑健とすることがまだ不十分であり、また、計算量を削減したリアルタイムの音響識別や照合のためにどの特徴量ベクトルの次元も３０次元ほどに制限されている。
そのため、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決したリアルタイムの音響識別や照合ができなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。

本発明に係る音響処理装置は、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析手段と、前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出手段と、前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成手段と、を備える。
本発明に係る音響処理システムは、上記記載の音響処理装置と、前記音響処理装置により生成された前記音響識別子を用いて音響の照合又は識別を行なう音響照合装置と、を含む。
本発明に係るビデオ処理システムは、ビデオ信号に含まれる音響信号から音響識別子を生成する上記記載の音響処理装置と、前記音響処理装置により生成された前記音響識別子を用いてビデオの照合又は識別を行なうビデオ照合装置と、を含む。
本発明に係る音響処理装置の制御方法は、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む、
本発明に係る音響処理装置の制御プログラムは、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、をコンピュータに実行させる。
本発明に係る音響処理方法は、音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の照合を行なう音響照合ステップと、を含む音響処理方法であって、前記音響処理ステップが、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む。
本発明に係るビデオ処理方法は、ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、前記音響処理ステップが、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む。

本発明によれば、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決してリアルタイムの音響識別や照合ができる。

図１は、本発明の第１実施形態に係る音響処理装置の構成を示すブロック図である。図２は、本発明の第２実施形態に係る音響処理の概念を示す図である。図３は、本発明の第２実施形態に係る音響処理装置の機能構成を示すブロック図である。図４は、本発明の第２実施形態に係る時間周波数解析部の構成を示すブロック図である。図５は、本発明の第２実施形態に係る領域特徴量抽出部の構成を示すブロック図である。図６Ａは、本発明の第２実施形態に係る抽出領域記憶部の構成を示す図である。図６Ｂは、本発明の第２実施形態に係る次元別抽出領域情報の具体例を示す図である。図７は、本発明の第２実施形態に係る音響識別子生成部の構成を示すブロック図である。図８は、本発明の第２実施形態に係る音響処理装置のハードウェア構成を示すブロック図である。図９は、本発明の第２実施形態に係る音響処理装置の動作手順を示すフローチャートである。図１０Ａは、本発明の第２実施形態に係る時間周波数解析部の他の構成を示すブロック図である。図１０Ｂは、本発明の第２実施形態に係る時間周波数解析部のさらに他の構成を示すブロック図である。図１０Ｃは、本発明の第２実施形態に係る時間周波数解析部のさらに他の構成を示すブロック図である。図１１は、本発明の第３実施形態に係る音響処理の概念を示す図である。図１２は、本発明の第３実施形態に係る音響識別子生成部の構成を示すブロック図である。図１３は、本発明の第４実施形態に係る音響識別子生成部の構成を示すブロック図である。図１４は、本発明の第４実施形態に係る音響処理装置の動作手順を示すフローチャートである。図１５は、本発明の第５実施形態に係る音響処理装置の機能構成を示すブロック図である。図１６は、本発明の第５実施形態に係る領域特徴量抽出部の構成を示すブロック図である。図１７は、本発明の第５実施形態に係る領域特徴量抽出方法記憶部の構成を示す図である。図１８は、本発明の第５実施形態に係る音響処理装置の動作手順を示すフローチャートである。図１９は、本発明の第６実施形態に係る音響処理装置の機能構成を示すブロック図である。図２０は、本発明の第６実施形態に係る音響識別子生成部の構成を示すブロック図である。図２１は、本発明の第６実施形態に係る比較・量子化方法記憶部の構成を示す図である。図２２は、本発明の第６実施形態に係る音響処理装置の動作手順を示すフローチャートである。図２３は、本発明の第７実施形態に係る音響処理装置の機能構成を示すブロック図である。図２４は、本発明の第７実施形態に係る時間周波数解析部の構成を示すブロック図である。図２５は、本発明の第７実施形態に係る音響識別子生成方法記憶部の構成を示す図である。図２６は、本発明の第７実施形態に係る音響処理装置の動作手順を示すフローチャートである。図２７は、本発明の第８実施形態に係る音響処理システムの構成を示すブロック図である。図２８は、本発明の第９実施形態に係る音響処理システムの構成を示すブロック図である。図２９は、本発明の第１０実施形態に係るビデオ処理システムの構成を示すブロック図である。図３０は、本発明の第１１実施形態に係るビデオ処理システムの構成を示すブロック図である。図３１は、本発明の第１２実施形態に係るビデオ処理システムの構成を示すブロック図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
［第１実施形態］
図１は、本発明の第１実施形態に係る音響処理装置１００のブロック図である。
音響処理装置１００は、音響信号１０１ａの時間周波数解析に基づいて音響を識別する音響識別子１０４ａを生成する装置である。図１に示すように、音響処理装置１００は、時間周波数解析部１０１と、領域特徴量抽出部１０３と、音響識別子生成部１０４と、を備える。
時間周波数解析部１０１は、音響信号１０１ａから時間周波数解析して時間周波数平面１０２を生成する。時間周波数平面１０２には、２つの部分領域の形状と２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対１０２−１，１０２−２が設定される。
領域特徴量抽出部１０３は、複数の部分領域対１０２−１，１０２−２について、各部分領域から領域特徴量１０３ａ，１０３ｂを抽出する。
音響識別子生成部１０４は、領域特徴量抽出部１０３が抽出した各部分領域からの領域特徴量１０３ａ，１０３ｂを用いて、音響を識別する音響識別子１０４ａを生成する。
本実施形態の音響処理装置は、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決するリアルタイムの音響識別ができる。
［第２実施形態］
次に、本発明の第２実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、音響信号から時間周波数解析によって得られた時間周波数平面上に、２つの部分領域からなる部分領域対の各部分領域の領域特徴量を抽出する。そして、この領域特徴量を比較した大小の結果を量子化する。
例えば、量子化は３値、次元は音響識別子の精度として十分な３００次元とする。３００次元は、時間周波数平面上の部分領域対における部分領域の形状と位置との組み合わせを変えることで生成される。この場合、６００ビット（＝２ビット（３値）×３００）で表わされ、７５バイトの音響識別子が生成される。
この他、第２の実施の形態における音響処理装置は、連続する一連の時間周波数平面を生成して一連の音響識別子を生成する。その結果、更に精度の高い音響識別子が得られる。
本実施形態によれば、少ない情報により記憶容量が少なくて済み、かつ、リアルタイムに音響識別子が生成できる。そのため、音響識別子の比較処理が必要な音響識別や音響照合などもリアルタイムで実現できる。
《音響処理の概念》
図２は、本実施形態に係る音響処理装置２００（図３）の処理概念を示す図である。
なお、時間周波数平面の生成は種々の方法が知られているので、図２には、時間周波数平面生成後の処理を示す。
図２の第１の処理２１０は、音響信号を時間周波数解析して複数の時間周波数平面を生成し複数の部分領域対を生成した状態を示す。時間周波数平面のそれぞれの内部に部分領域対が設定される。
各部分領域対は、部分領域間の相対的位置関係の相違又は絶対位置の相違を含む位置関係の相違と、部分領域の形状の相違との少なくともいずれかを有す。
図２の第２の処理２３０は、各部分領域から領域特徴量を抽出する状態を示す。同じ時間周波数平面２２０内において、部分領域対のそれぞれの部分領域とその部分領域間の差分を取る関係が表現されている。
時間周波数平面２２０内に部分領域対の２つの部分領域が設定されて、それぞれの部分領域に含まれるパワースペクトラムの代表値あるいは平均値などが算出され、その差分が算出さる様子が各部分領域の中心を結ぶ矢印で示されている。
図２の第３の処理２４０は、算出された差分を量子符号化する様子を示したものである。
第３の処理２４０では、第１領域特徴量から第２領域特徴量を差し引いた差分が、差分“０”（パワースペクトラムが等しい場合に相当）であれば“０”を量子符号化の出力値とする。同じ差分が正（＋）の値であれば“＋１”を量子符号化の出力値とする。同じ差分が負（−）の値であれば“−１”を量子符号化の出力値とする。
このように、“−１”、“０”、“＋１”の３値の量子化値に符号化するのは、できるだけ多次元とすることで音響特徴量の分離を容易にし、かつ音響特徴量の照合の計算量を削減するためである。
したがって、本実施の形態は、上記３値の例に限定される必要はなく、２値化による構成であってもよい。このようにして、音響識別子の要素となる音響識別子要素が生成される。この音響識別子要素生成が次元数（部分領域対の数）だけ繰り返される。
図２の２４０ａは、差分の量子符号化の結果を集めて生成された音響特徴量の例を示している。音響特徴量２４０ａは、簡単な例としては、差分の量子符号化された値を一次元方向に次元順に並べたデータである。
例えば３００次元であれば、６００ビット（＝２ビット（３値）×３００）で表わされ、７５バイトの音響識別子が生成される。なお、音量識別子は、単純に差分の量子符号化された値を一次元方向に次元順に並べたデータではなく、多次元方向に並べたものやさらに追加の演算を加えたデータであってもよく、本例には限定されない。
《音響処理装置の機能構成》
図３は、本実施形態に係る音響処理装置２００の機能構成を示すブロック図である。
時間周波数解析部３１０は、入力されたサンプル音響信号３０１ａを解析し時間周波数データ３１０ａを出力する。時間周波数データ３１０ａは、時間軸と周波数軸との平面上に位置付けられるパワースペクトラムである。
ここで、サンプル音響信号３０１ａのサンプリング周期は、入力される音響に応じて調整できることが望ましい。例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）から再生した音声だとサンプリング周波数を４４．１ｋＨｚとしてサンプリングするのが望ましい。また、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）から再生した音声だとサンプリング周波数を４８ｋＨｚとしてサンプリングするのが望ましい。
短いサンプリング周期ほど、瞬間的な音の再現性がよい、雑音が少ないなどのメリットがあるので、サンプリング周波数を高くするのが好ましい。このように、入力される音響の特徴、例えば記憶媒体の種別や再生装置の特徴などの基づき適切なサンプリング周波数（サンプリング周期）が選択される。
時間周波数平面記憶部３２０は、時間および周波数が離散化された時間周波数データ３１０ａを、時間順に時間軸上に並べて時間周波数平面に配置する。
領域特徴量抽出部３３０は、抽出領域記憶部３５０に記憶された２つの部分領域からなる部分領域対から、次元数にしたがって順次に部分領域対を示す次元別抽出領域情報３５０ａを読み出す。
そして、領域特徴量抽出部３３０は、その部分領域対の各部分領域内のパワースペクトラム３２０ａを時間周波数平面記憶部３２０から読み出して所定演算を行ない、第１部分領域から第１領域特徴量３３０ａを抽出し、第２部分領域から第２領域特徴量３３０ｂを抽出する。ここでの所定演算としては、部分領域内のパワースペクトラムの平均、最大値、メディアン値、最頻値、などから選ばれる。
音響識別子生成部３４０は、第１領域特徴量３３０ａと第２領域特徴量３３０ｂとの比較による大小関係により３値の量子化を行ない、その結果を次元数（部分領域対の数に相当）結合することにより、音響識別子３４０ａを生成する。
（時間周波数解析部）
図４は、本実施形態に係る時間周波数解析部３１０の構成を示すブロック図である。
時間周波数解析部３１０は、フレーム切出部４０１とウェーブレット変換部４０２とを有する。フレーム切出部４０１は、サンプル音響信号３０１ａから所定時間ごとシフトしながら所定時間長を有するフレームを切り出す。フレーム切出部４０１は、使用するシフト時間４０１ａとフレーム時間長４０１ｂとを記憶している。
シフト時間４０１ａとしては、本技術分野でよく使用される１０ｍｓ前後、特に１１．６ｍｓを使用する。フレーム間のシフト時間は、５ｍｓ〜１５ｍｓの範囲が好ましい。また、フレーム時間長４０１ｂとしては、たとえば３０ｍｓ前後を使用する。なお、フレーム時間長に制限はない。
本実施形態においては、フレーム時間長として３０ｍｓ〜数秒の範囲とした。このフレーム時間長は、全周波数領域の情報量を落とさないようにするために必要である。しかしながら、フレーム時間長により処理の遅延が発生し、実時間の処理が難しくなる場合もある。
そのため、フレーム時間長が長い場合は、サンプル周期を一定にせず、例えば、開始時間の周期を短く、徐々に周期を延ばすように、適宜間引きすることも可能である。これにより、開始時間付近の瞬間的な音の再現性を維持しながら、低い周波数の再現性も改善できる。
ウェーブレット変換部４０２は、各フレーム内のサンプル音響信号に対してウェーブレット変換を行なう。そして、ウェーブレット変換部４０２は、時間周波数平面上のパワースペクトラムである時間周波数データ３１０ａを出力する。その時間周波数データ３１０ａを時間軸に並べることによって、時間周波数平面が生成される。
なお、ウェーブレット変換は、非特許文献３の処理の一部として記載されているようによく知られているためここでは詳説しない。
（領域特徴量抽出部）
図５は、本実施形態に係る領域特徴量抽出部３３０の構成を示すブロック図である。
領域特徴量抽出部３３０は、次元決定部５０１と、抽出領域取得部５０２と、領域特徴量抽出部５０３とを有する。領域特徴量抽出部５０３は、部分領域対の第１抽出領域の特徴量を抽出する第１領域特徴量抽出部５０３Ａと、第２抽出領域の特徴量を抽出する第２領域特徴量抽出部５０３Ｂとを含む。
次元決定部５０１は、領域特徴量抽出部３３０にて部分領域対を用いて領域特徴量を抽出する次元を決定する。
なお、次元決定部５０１の次元は、予め決められた次元を記憶部で記憶する構成でもよい。また、オペレータが対象音響の種別などに対応して設定する構成でも、音響処理装置２００が対象音響の種別などを判定して設定する構成であってもよい（図示せず）。
抽出領域取得部５０２は、次元決定部５０１から次元の数を取得し、抽出領域記憶部３５０からの部分領域対の情報である次元別抽出領域情報３５０ａを取得する。そして、部分領域対の各部分領域を第１抽出領域情報と第２抽出領域情報として出力する。以下、音響識別子生成部３４０における大小あるいは差分における基準（差分においては引く側）を、第１領域とする。
領域特徴量抽出部５０３の第１領域特徴量抽出部５０３Ａは、時間周波数平面記憶部３２０から読み出したパワースペクトラム３２０ａから、第１抽出領域内のパワースペクトラムを取り出して第１領域特徴量３３０ａを抽出する。なお、特徴量抽出のための演算方法には、平均値や最大値など種々あるが（図１７参照）、本実施形態では平均値を特徴量とする場合を説明する。
第２領域特徴量抽出部５０３Ｂは、時間周波数平面記憶部３２０から読み出したパワースペクトラム３２０ａから、第２抽出領域内のパワースペクトラムを取り出して第２領域特徴量３３０ｂを抽出する。なお、第１領域と第２領域との特徴量抽出のための演算方法は通常同じであるが、異なる演算方法を組み合わせてもよい。
（抽出領域記憶部）
図６Ａは、本実施形態に係る抽出領域記憶部３５０の構成を示す図である。
図６Ａの抽出領域記憶部３５０は、各次元（第１次元，第２次元，…，第ｎ次元）６０１に対応付けて、第１抽出領域情報６０２として４つの座標を記憶し、第２抽出領域情報６０３として４つの座標を記憶する。
なお、図６Ａは、各抽出領域が４つの座標で表された矩形の情報を示しているが、部分領域である抽出領域の情報は４つの座標に限らない。例えば、抽出領域記憶部３５０は、抽出領域形状が方形であれは対角の２つの座標を記憶すればよい。また、その形状が複雑な形状の抽出領域であれば４つ以上の特徴点を記憶すればよい。さらに、その形状が曲線の場合は、抽出領域記憶部３５０は焦点と半径、あるいは、スプライン曲線のパラメータなどを記憶してもよい。
図６Ｂは、本実施形態に係る次元別抽出領域情報３５０ａの具体例を示す図である。
図６Ｂは、１２次元に相当する１２種類の部分領域対を示す図である。図６Ｂに示すように部分領域対の各部分領域の形状や位置は、時間周波数平面上の部分領域対が、対象とする音響の識別に有効な情報を含むよう決定することが望ましい。
また、１つの部分領域対の決定ではなく、他の部分領域対との関連を総合的に好著して抽出領域を決定してもよい。例えば、音響の種別に応じて、各次元の部分領域対の順序を特徴付けるものを前に置くように変更してもよい。
（音響識別子生成部）
図７は、本実施形態に係る音響識別子生成部３４０の構成を示すブロック図である。
本実施形態の音響識別子生成部３４０は、大小比較部７０１と量子化部７０２とデータ結合部７０３とを有する。
大小比較部７０１は、領域特徴量抽出部３３０から出力された第１領域特徴量３３０ａと第２領域特徴量３３０ｂとを入力し、大小比較してその大小比較結果を出力する。本実施形態においては、上述の如く、第２領域特徴量３３０ｂが第１領域特徴量３３０ａより大きいか／等しいか／小さいかを示す情報を出力する。
量子化部７０２は、大小比較結果から、第２領域特徴量が第１領域特徴量より大きければ量子化データとして“１”を出力する。また、第２領域特徴量が第１領域特徴量と等しければ、量子化部７０２は量子化データとして“０”を出力する。また、第２領域特徴量が第１領域特徴量より小ければ、量子化部７０２は量子化データとして“−１”を出力する。
いわゆる３値化の量子化を行なう（図２の第３の処理２４０参照）。かかる３値化は少ないビット数（２ビット）で演算処理の高速化を図ると同時に精度を上げるための情報量を確保するためである。
データ結合部７０３は、量子化部７０２から出力された３値の量子化データを次元決定部５０１からの次元数分結合して、対象音響の音響識別子３４０ａを出力する。
なお、結合方法は、３値の量子化データを単純に出力順に次元数分並べてもよいし、より特徴を有する（相違点が大きい）と判断する量子化データを集めてもよい。また、生成された音響識別子を保存する場合は符号化に合わせて“０”を集めてもよい。
あるいは、単に量子化データを集めるのではなく、何らかの数値演算や論理演算を行なってもよい。
《音響処理装置のハードウェア構成》
図８は、本実施形態に係る音響処理装置２００のハードウェア構成を示すブロック図である。
図８で、ＣＰＵ８１０は演算制御用のプロセッサであり、プログラムを実行することで図３の各機能構成部を実現する。ＲＯＭ８２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。なお、音響処理装置２００がネットワークに接続して、ネットワークを介してデータを送受信する、あるいは操作する場合には、通信制御部を有する（図示せず）。
ＲＡＭ８４０は、ＣＰＵ８１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ８４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。
ＲＡＭ８４０は、サンプルされて入力された音響信号データ８４１、シフト時間４０１ａとフレーム時間長４０１ｂにしたがって、音響信号から切り出されたフレームデータ８４２、各フレームデータ８４２から生成された時間周波数データ８４３、ある１つの次元の部分領域対の第１抽出領域情報８４４、ある１つの次元の部分領域対の第２抽出領域情報８４５、第１抽出領域の第１領域特徴量３３０ａ、第１領域特徴量３３０ａと第２領域特徴量３３０ｂとの大小比較結果８４６、大小比較結果８４６から３値化された量子化データ８４７、３値化された量子化データ８４７を次元数分結合した音響識別子３４０、を記憶する。
ストレージ８５０は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要なデータまたはプログラムを格納する。
より具体的には、ストレージ８５０は、抽出領域記憶部３５０（図６Ａ、図６Ｂ参照）、フレーム間のシフト時間４０１ａ、各フレームのフレーム時間長４０１ｂ、次元決定部５０１の次元８５１、複数のフレームから生成された時間周波数平面データ３２０ｂを記憶する。
また、ストレージ８５０は、全体の処理を実行させる音響処理プログラム８５２を記憶する。その音響処理プログラム８５２には、時間周波数解析を行なう時間周波数解析モジュール８５３、各次元の領域特徴量を抽出する領域特徴量抽出モジュール８５４、領域特徴量を次元数分集めて音響識別子を生成する音響識別子生成モジュール８５５が含まれる。
入力インタフェース８６０は、音響信号をデジタルデータとして入力するインタフェースである。また、出力インタフェースは、生成された音響識別子を出力するインタフェースである。
なお、図８には、ＯＳなどの汎用のデータやプログラムは示していない。
《音響処理装置の動作手順》
図９は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。図８のＣＰＵ８１０は、ＲＡＭ８４０を使用してこのフローチャートを実行する。図３〜図５および図７の各機能構成部は、このフローチャートをＣＰＵ８１０により実行する。
始めに、ステップＳ９０１において、時間周波数解析部３１０は、入力された音響信号に対して時間周波数解析をして、時間周波数平面を生成する。ステップＳ９０３において、領域特徴量抽出部３３０の次元決定部５０１は、以下のステップＳ９０５〜Ｓ９１５を各次元についてループするループ用パラメータｎを１に初期化する。
各次元のループは、ステップＳ９０５において、領域特徴量抽出部３３０の抽出領域取得部５０２は、次元ｎの第１抽出領域と第２抽出領域の部分領域対を取得する。
ステップＳ９０７において、領域特徴量抽出部３３０の領域特徴量抽出部５０３は、次元ｎの第１領域特徴量と第２領域特徴量とを算出する。そして、ステップＳ９０９において、音響識別子生成部３４０の大小比較部７０１は、次元ｎの第１領域特徴量と第２領域特徴量とを比較し、音響識別子生成部３４０の量子化部７０２は、比較結果を３値量子化して量子化データを出力する。ステップＳ９１１においては、音響識別子生成部３４０のデータ結合部７０３は、次元ｎの量子化データを次元ｎ−１までの量子化データに追加する。ステップＳ９１３において、音響識別子生成部３４０は、決定されているＮ次元までの量子化データの算出が終了したかを判断する。量子化データの算出が終了してなければステップＳ９１５に進んで、ループ用パラメータｎに＋１をする（図９では、ｎ＝ｎ＋１）して、ステップＳ９０５に戻る。
一方、量子化データの算出が終了していればステップＳ９１７に進んで、音響識別子生成部３４０は、生成された音響識別子を出力する。
（時間周波数解析部の他の構成）
図１０Ａは、本実施形態に係る時間周波数解析部の他の構成の時間周波数解析部１０１０−１を示すブロック図である。
時間周波数解析部１０１０−１は、フレーム切出部４０１と、高速フーリエ変換（以下、ＦＦＴと示す）部１００２と、メルスケール（以下、ｌｏｇと示す）処理部１００３と、離散コサイン変換（以下、ＤＣＴと示す）部１００４とを有する。フレーム切出部４０１は、シフト時間やフレーム時間長の選択はあるが、基本的な動作が図４と同様であるので説明は省略する。
ＦＦＴ部１００２は、切り出されたフレーム内の音響信号の周波数成分を解析する。ｌｏｇ処理部１００３は、その周波数成分の絶対値に複数の周波数領域の窓（メル尺度）をかけた積分値に対する対数をとる処理を実行する。ＤＣＴ部１００４は、ｌｏｇ処理部１００３の出力に対して、スペクトル情報を低域に集める処理を実行する。ＤＣＴ１００４の出力の低次の１２〜１６次元を取り出したメル周波数ケプストラム係数（以下、ＭＦＣＣと示す）は、本実施形態の時間周波数平面に時間順に配置する時間周波数データ１０１０−１ａとして使用される。
かかる時間周波数解析は、非特許文献１に示された構成と同様な構成を用いることができる（その詳細な処理の説明は、非特許文献１を参照されたい）。
（時間周波数解析部のさらに他の構成）
図１０Ｂは、本実施形態に係る時間周波数解析部における更に他の構成の時間周波数解析部１０１０−２を示すブロック図である。かかる時間周波数解析は、非特許文献２に示された構成と同様な構成を用いることができる（その詳細な処理の説明は、非特許文献２を参照されたい）。
時間周波数解析部１０１０−２は、フレーム切出部４０１と、離散フーリエ変換（以下、ＤＦＴと示す）部１００６と、メルスケール（ｌｏｇ）処理部１００７と、サブバンド分割部１００８とを有する。フレーム切出部４０１は、シフト時間やフレーム時間長の選択はあるが、基本的な動作が図４と同様であるので説明は省略する。
ＤＦＴ部１００６は、切り出されたフレーム内の音響信号の離散した周波数成分を解析する。ｌｏｇ処理部１００７は、周波数成分の絶対値に複数の周波数領域の窓（メル尺度）をかけた積分値に対する対数をとる処理を実行する。
サブバンド分割部１００８は、ｌｏｇ処理部１００７の出力を３３のバンド幅に分割して、その平均パワーを算出する。サブバンド分割１００８の出力は、本実施形態の時間周波数平面に時間順に配置する時間周波数データ１０１０−２ａである。
（時間周波数解析部のさらに他の構成）
図１０Ｃは、本実施形態に係る時間周波数解析部の更に他の構成の時間周波数解析部１０１０−３を示すブロック図である。かかる時間周波数解析は、次の非特許文献４に記載された構成を用いることができる（その詳細な説明は、下記の文献を参照されたい。
ＭａｓａｔａｋａＧｏｔｏ，″ＡＣｈｏｒｕｓＳｅｃｔｉｏｎＤｅｔｅｃｔｉｏｎＭｅｔｈｏｄｆｏｒＭｕｓｉｃａｌＡｕｄｉｏＳｉｇｎａｌｓａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｔｏａＭｕｓｉｃＬｉｓｔｅｎｉｎｇＳｔａｔｉｏｎ″，ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＡＵＤＩＯ，ＳＰＥＥＣＨ，ＡＮＤＬＡＮＧＵＡＧＥＰＲＯＣＥＳＳＩＮＧ，ＶＯＬ．１４，ＮＯ．５，ＳＥＰＴＥＭＢＥＲ２００６１７８３
時間周波数解析部１０１０−３は、フレーム切出部４０１と、高速フーリエ変換（ＦＦＴ）部１００２または離散フーリエ変換（ＤＦＴ）部１００６と、クロマベクトル（ｃｈｒｏｍａｖｅｃｔｏｒ）算出部１００９とを有する。フレーム切出部４０１は、シフト時間やフレーム時間長の選択はあるが基本的な動作が図４と同様であるので説明は省略する。
ＦＦＴ１００２またはＤＦＴ１００６は、切り出されたフレーム内の音響信号の周波数成分を解析する。クロマベクトル算出部１００９は、クロマ（音名：ｃｈｒｏｍａ）を周波数軸としてパワーの分布を表現した特徴量であるクロマベクトルを算出する。クロマベクトル算出部１００９の出力を、本実施形態の時間周波数平面に時間順に配置する時間周波数データ１０１０−３ａとして使用する。
なお、本実施形態では、非特許文献１〜３でそれぞれ使用している手順の一部を時間周波数平面の作成に適用したが、これに限定されるものではない。
一般に、音響信号からシフトしながらオーバーラップするフレームを切り出し、周波数解析してパワースペクトラムの周波数分布を算出する。そして、異なる周波数幅を選択するウインドウ関数や区間関数を複数設定して平均パワーを算出することで、時間周波数平面が作成可能であることは知られている。
上述のＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ），ＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ），ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ），ＭＣＬＴ（ＭｏｄｕｌａｔｅｄＣｏｍｐｌｅｘＴｒａｎｓｆｏｒｍ），ＨａａｒＴｒａｎｓｆｏｒｍ，Ｗａｌｓｈ−ＨａｄａｍａｒｄＴｒａｎｓｆｏｒｍ，ＷａｖｅｌｅｔＴｒａｎｓｆｏｒｍ、ｌｏｇ、ｃｈｒｏｍａｖｅｃｔｏｒ算出などの処理は、その具体例の一部である。
［第３実施形態］
次に、本発明の第３実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、上記第２実施形態において第１領域特徴量と第２領域特徴量とが等しい場合を“０”に量子化したのに比べ、３値量子化において“０”と量子化する差分の範囲を設定する点で異なる。すなわち、第１領域特徴量と第２領域特徴量との差分が所定範囲にある場合には、音響処理装置は、特徴が無いとして“０”に量子化する。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、特徴のある部分領域対と特徴の少ない部分領域対とを分離することにより、情報量の低減と共に冗長性を無くして音響識別子の精度を上げることができる。
《音響処理の概念》
図１１は、本実施形態に係る音響処理の概念を示す図である。
なお、時間周波数平面の生成は種々の方法が知られているため、図１１は、時間周波数平面の生成後の処理を示す。そして、図１１の第１の処理２１０、時間周波数平面２２０および第２の処理２３０は、第２実施形態の図２と同様であるので、その説明は省略する。
図１１の第４の処理１１４０は、算出された差分を量子符号化する様子を示したものである。
第４の処理１１４０では、第１領域特徴量から第２領域特徴量を差し引いた差分が、差分“＋α”から“−β”の間であれば（図１１の破線１１４１ａから１１４１ｂの間に相当）であれば“０”を量子符号化の出力値とする。同じ差分が＋αより大きい値であれば“＋１”を量子符号化の出力値とする。同じ差分が−βより小さい値であれば“−１”を量子符号化の出力値とする。
ここで、“α”や“β”の値は、対象とする音響の種別によって適切な値は異なる。例えば、音楽か音声かによっては異なる値を設定してもよい。特に、決まった楽器や、あるいは決まった音響を照合する場合には、最適な値を設定するのが望ましい。
音響特徴量１１４０ａは、簡単な例としては、差分の量子符号化した値を一次元方向に次元順に並べたものである。例えば３００次元であれば６００ビット（＝２ビット（３値）×３００）で表わされ、７５バイトの音響識別子が生成される。
なお、単純に差分の量子符号化された値を一次元方向に次元順に並べたものではなく、多次元方向に並べたものやさらに追加の演算を加えたものであってもよく、本例には限定されない。
（音響識別子生成部）
図１２は、本実施形態に係る音響識別子生成部１２４０の構成を示すブロック図である。
音響識別子生成部１２４０は、差分値算出部１２４１と、量子化部１２４２と、量子化境界情報記憶部１２４４と、データ結合部７０３とを有する。なお、データ結合部７０３の機能は、第２実施形態の図７と同様であるので説明は省略する。
差分値算出部１２４１は、領域特徴量抽出部３３０から出力された第１領域特徴量３３０ａと第２領域特徴量３３０ｂとの差分を算出する。本例では、符号付き差分＝（第２領域特徴量−第１領域特徴量）である。
量子化境界情報記憶部１２４４は、予め設定された３値量子化の閾値である量子化境界情報を記憶している。なお、量子化境界情報は、図１１に示したようにプラスとマイナスとで数値が異なる“＋α”、“−β”であってもよいし、同じ数値であってもよい。また、量子化境界情報記憶部１２４４はスイッチなどのハードウェア構成であっても、オペレータが操作部から入力するソフトウェア構成であってもよい。
量子化部１２４２は、差分値算出部１２４１の出力である符号付きの差分値と、量子化境界決定部１２４４により設定された量子化境界情報に基づいて“＋１”、“０”、“−１”の３値の量子化データを出力する。
［第４実施形態］
次に、本発明の第４実施形態に係る音響処理装置について説明する。
第３実施形態のように、量子化の境界が固定化されると、特定の音響に対して、有意な値（＋１や−１）が音響識別子の特定位置に偏るという事態が発生する（エントロピーが低くなる）。したがって、これらの音響に対して識別能力が低下するという問題が発生する。
本実施形態に係る音響処理装置は、上記第３実施形態と比べると、３値量子化の量子化境界情報を装置内部で自動的に設定する点で異なる。本実施形態においては、全次元の差分値の分布に基づいて、量子化境界情報を決定する。その他の構成および動作は、第３実施形態と同様であるため、同じ構成および動作は同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、量子化の境界が音響に対して適応的に（動的に）算出されることにより、どの音響に対しても有意な値（＋１や−１）が音響識別子の特定位置に偏ることを抑えることができる。そのため、識別能力を高くすることができる。
（音響識別子生成部）
図１３は、本実施形態に係る音響識別子生成部１３４０の構成を示すブロック図である。
音響識別子生成部１３４０は、差分値算出部１２４１と、量子化部１２４２と、量子化境界決定部１３４４と、データ結合部７０３とを有する。なお、差分値算出部１２４１と、量子化部１２４２と、データ結合部７０３の機能は、第３実施形態の図１２と同様であるので説明は省略する。
量子化境界決定部１３４４は、差分値算出部１２４１から供給される第１領域特徴量３３０ａと第２領域特徴量３３０ｂとの全次元の差分値が供給されると、全次元の差分値の分布に基づいて、量子化の境界を決定し、決定した量子化境界情報を量子化部１２４２へ供給する。ここで、全次元の差分値の分布とは、差分値に対する生起の頻度（確率）である。
なお、差分値がスカラー量である場合は、例えば、各量子化レベル（＋１、０、−１）に対する値域（すなわち閾値）を決定し、その値域（閾値）を量子化境界情報として量子化部１２４２へ供給する。また、差分値がベクトル量である場合は、例えばベクトル量子化を行うためのパラメータ、例えば、各量子化インデックスの代表ベクトル（重心ベクトルなど）を決定し、それを量子化境界の情報として量子化部１２４２へ供給する。
量子化境界決定部１３４４は、差分値がスカラー量の場合であって、Ｍ値の量子化を行う場合（Ｍ＝２、３、…など）に、すべての次元の差分値の分布に基づいて、それぞれの量子化インデックスの全次元に対する割合が均等になるように、量子化の値域（閾値）を決定してもよい。
また、例えば、差分値がスカラー量の場合であって３値の量子化を行う場合、量子化境界決定部１３４４は、差分がないことを示す“０”に量子化する際の範囲を示す閾値を、全次元の差分値の分布に基づいて決定する。続いて量子化境界決定部１３４４は、決定した閾値を量子化部１２４２へ供給する。。例えば、量子化境界決定部１３４４は、全次元の差分値の絶対値を算出し、算出した差分値の絶対値をソートして、その上位または下位から、ある規定の割合（なおこの規定の割合は、例えば、入力として供給されるとする）の点を閾値として出力してもよい。
規定の割合として、百分率でＰ％とした場合（例えばＰ＝２５％）を例に挙げて、具体的に説明する。量子化境界決定部１３４４は、全次元（次元数＝Ｎとする）の差分値の絶対値を昇順にソートする。この場合、昇順にソートされた差分値の絶対値の集合は、Ｄ（ｉ）＝｛Ｄ（０）、Ｄ（１）、Ｄ（２）、…、Ｄ（Ｎ−１）｝と表わされる。ここで、昇順にソートされた順列の下位からＰ％の位置にある値は、例えば、Ｄ（ｆｌｏｏｒ（Ｎ×Ｐ／１００））となり、閾値ｔｈ＝Ｄ（ｆｌｏｏｒ（Ｎ×Ｐ／１００））となる。なお、ｆｌｏｏｒ（）は、小数点以下の切り捨てを行う関数である。
なお、量子化境界決定部１３４４は、上述のような規定の割合を閾値とする他に、例えば、（＋１、０、−１）の量子化データの割合が均等に近づくように閾値を決定してもよい。
本実施形態の量子化境界決定部１３４４による量子化境界の決定によれば、例えば、第３実施形態における固定化された閾値を用いた場合、時間周波数平面でパワーススペクトラムに起伏の少ない音響は、大多数の次元（またはすべての次元）の量子化データが“０”になってしまう余地が有る。
これに対して、本実施形態における適応的な閾値を用いると、起伏の少ない音響に対しては閾値が小さい値に自動的に調整されるため、大多数の次元の量子化データが“０”になるような事態が発生しない。
《音響処理装置の動作手順》
図１４は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
図８のＣＰＵ８１０は、ＲＡＭ８４０を使用してこのフローチャートを実行する。図３〜図５および図１３の各機能構成部は、このフローチャートをＣＰＵ８１０により実行する。なお、本実施形態を実行するためには、図８のＲＡＭ８４０に量子化境界のデータを記憶する領域が追加され、ストレージ８５０に量子化境界決定モジュールが追加される。
また、図１４では、第２実施形態の図９におけるステップＳ９０１とＳ９１７とは記載を省略している。また、図９と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
まず、各次元の差分演算するループでは、ステップＳ９０５において、領域特徴量抽出部３３０の抽出領域取得部５０２は、次元ｎの第１領域特徴量と第２領域特徴量を取得する。そしてステップＳ９０７において、領域特徴量抽出部３３０の領域特徴量抽出部５０３は、次元ｎの第１領域特徴量と第２領域特徴量とを算出する。その後、ステップＳ１４０９において、差分値算出部１２４１は、次元ｎの第１領域特徴量と第２領域特徴量との差分値を算出する。ステップＳ１４１１においては、次元ｎの差分値を次元ｎに対応付けて記憶する。
音響識別子生成部１３４０は、全次元の差分値の演算が終了すると、ステップＳ９１３からＳ１４１３に進んで、音響識別子生成部１３４０の量子化境界決定部１３４４は、全次元の差分値の分布に基づいて量子化境界を決定する。
次に、各次元の量子化ループでは、まずステップＳ１４１５において、ループ値ｎを“１”に初期化する。ステップＳ１４１７において、音響識別子生成部１３４０の量子化部１２４２は、次元ｎの差分値を量子化し、量子化データを出力する。そして、ステップＳ１４１９において、音響識別子生成部１３４０のデータ結合部７０３は、出力された次元ｎの量子化データを次元ｎ−１までの量子化データに追加する。
ステップＳ１４２１において、音響識別子生成部１３４０は、ループ値ｎが全次元数ＮになるまでステップＳ１４２３で＋１をしながら各次元の量子化ループを繰り返す。全次元の量子化が終了すればステップＳ９１７に進む。
［第５実施形態］
次に、本発明の第５実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、上記第２乃至第４実施形態と比べると、領域特徴量の抽出方法が各次元（すなわち、各部分領域対）によって選択される点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、次元間で領域特徴量算出方法が異なる（領域特徴量算出方法に多様性がある）ことにより、次元間の相関をより小さくできる。したがって、上記実施形態の効果に加えて、異なる音響を識別できる度合いである識別能力をさらに高くすることができる。
《音響処理装置の機能構成》
図１５は、本実施形態に係る音響処理装置１５００の機能構成を示すブロック図である。
なお、図１５において、第２実施形態の図３と同様の機能を有する機能構成部は、同じ符号を付してその詳しい説明を省略する。
図１５における特徴的な構成は、領域特徴量の抽出方法を記憶する領域特徴量抽出方法記憶部１５６０を有する点である。
領域特徴量抽出方法記憶部１５６０は、各次元（各次元における部分領域対が、どのような形状でどの位置に第１部分領域と第２部分領域とを有するかは分かっているので）に対応して、領域特徴量抽出に適切な領域特徴量抽出方法を記憶している。
そして、領域特徴量抽出部１５３０は、領域特徴量抽出方法記憶部１５６０から各次元に対応して送られる領域特徴量抽出方法１５６０ａにしたがって第１部分領域と第２部分領域との領域特徴量を抽出して、音響識別子生成部３４０に出力する。
（領域特徴量抽出部）
図１６は、本実施形態に係る領域特徴量抽出部１５３０の構成を示すブロック図である。
図１６において、第２実施形態の図５と同様の機能を果たす機能構成部には、同じ参照符号を付してその詳しい説明を省略する。
図１６の領域特徴量抽出部１５３０には、領域特徴量抽出方法取得部１６０４が新たに追加されている
領域特徴量抽出方法取得部１６０４は、領域特徴量抽出方法記憶部１５６０から各次元に対応した領域特徴量抽出方法を取得して、その抽出方法にしたがって領域特徴量抽出を行なう領域特徴量抽出部５０３に領域特徴量算出方法情報を出力する。
（領域特徴量抽出方法記憶部）
図１７は、本実施形態に係る領域特徴量抽出方法記憶部１５６０の構成を示す図である。
なお、本実施形態においては、領域特徴量抽出方法記憶部１５６０が各次元に対応する領域特徴量抽出方法の１セットを記憶する場合を説明するが、音響の種別や特徴に応じて複数の異なるセットを記憶しておき、入力する音響信号に応じて１セットを選択する構成であってもよい。
図１７の領域特徴量抽出方法記憶部１５６０は、各次元１７０１に対応付けて、領域特徴量抽出方法を記憶している。各次元を表わす信号に対応して、領域特徴量抽出方法１７０２を読み出して、領域特徴量抽出部１５３０の領域特徴量抽出方法取得部１６０４に送る。
なお、次元の順序が固定であるならば、次元を表わす信号ではなく、領域特徴量抽出終了を報知して次の領域特徴量抽出方法を読み出す構成でもよい。
《音響処理装置の動作手順》
図１８は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
図８のＣＰＵ８１０は、ＲＡＭ８４０を使用してこのフローチャートを実行する。図１５，図４，図７および図１３の各機能構成部は、このフローチャートをＣＰＵ８１０により実行する。
なお、本実施形態を実行するためには、図８のＲＡＭ８４０に実行中の次元を記憶する領域とその次元の領域特徴量抽出情報を記憶する領域とが追加される。また、ストレージ８５０に領域特徴量抽出方法記憶部１５６０と領域特徴量抽出方法取得モジュールとが追加される。また、図１８では、図９と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
図１８おける特徴的なステップは、ステップＳ１８０１の追加である。ステップＳ１８０１において領域特徴量抽出部１５３０は、次元ｎに対応する領域特徴量算出方法あるいはそれを示す情報を、領域特徴量抽出方法記憶部１５６０から取得する。そして、ステップＳ１８０７において、ステップＳ１８０１で取得された領域特徴量抽出方法によって、領域特徴量抽出部１５３０は、第１領域特徴量と第２領域特徴量との抽出が行なわれる。なお、ステップＳ１８０１は、ステップＳ９０５の前にあってもよい。
［第６実施形態］
次に、本発明の第６実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、上記第２乃至第５実施形態と比べると、比較・量子化方法記憶部が各次元に対応する比較・量子化方法を記憶し、音響識別子生成部が各次元に対応する比較・量子化を行なう点で異なる。
その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、次元間で比較・量子化方法が異なる（比較・量子化方法に多様性がある）ことにより、次元間の相関をより小さくできる。したがって、第２実施形態の効果に加えて、異なる画像を識別できる度合いである識別能力をさらに高くすることができる。
《音響処理装置の機能構成》
図１９は、本実施形態に係る音響処理装置１９００の機能構成を示すブロック図である。
なお、図１９において、第２実施形態の図３と同様の機能を有する機能構成部は、同じ符号を付してその詳しい説明を省略する。
図１９における特徴的な構成は、比較・量子化方法を記憶する比較・量子化方法記憶部１９７０を有する点である。比較・量子化方法記憶部１９７０は、各次元（各次元における部分領域対が、どのような形状でどの位置に第１部分領域と第２部分領域とを有するかは分かっているので）に対応して、比較・量子化に適切な比較・量子化方法を記憶している。
そして、音響識別子生成部１９４０は、比較・量子化方法記憶部１９７０から各次元に対応して送られる比較・量子化方法１９７０ａにしたがって比較・量子化を行ない、全次元の結果から音響識別子を生成する。
（音響識別子生成部）
図２０は、本実施形態に係る音響識別子生成部１９４０の構成を示すブロック図である。
図２０において、第２実施形態の図７と同様の機能を果たす機能構成部には、同じ参照符号を付してその詳しい説明を省略する。
図２０の音響識別子生成部１９４０においては、比較・量子化方法取得部２００４が新たに追加された。比較・量子化方法取得部２００４は、比較・量子化方法記憶部１９７０から各次元に対応した比較・量子化方法を取得して、その比較・量子化方法にしたがって比較・量子化を行なう大小比較部７０１および量子化部７０２に比較・量子化方法情報を出力する。
（比較・量子化方法記憶部）
図２１は、本実施形態に係る比較・量子化方法記憶部１９７０の構成を示す図である。
なお、本実施形態では、比較・量子化方法記憶部１９７０が各次元に対応する比較・量子化方法の１セットを記憶する場合を説明するが、音響の種別や特徴に応じて複数の異なるセットを記憶しておき、入力する音響信号に応じて１セットを選択する構成であってもよい。
図２１の比較・量子化方法記憶部１９７０は、各次元２１０１に対応付けて比較・量子化方法２１０２を記憶している。各次元を表わす信号に対応して、比較・量子化方法２１０２を読み出して、音響識別子生成部１９４０の比較・量子化方法取得部２００４に送る。なお、次元の順序が固定であるならば、次元を表わす信号ではなく、比較・量子化終了を報知して次の比較・量子化方法を読み出す構成でもよい。
図２１において、比較・量子化方法Ａは、大小比較の２値化である。比較・量子化方法Ｂは、“０”に量子化する同じ閾値の量子化境界を有する３値化である。比較・量子化方法Ｃは、４値以上の量子化である。比較・量子化方法Ｄは、領域特徴量がベクトル値である場合にスカラー量に変換して量子化を行なう方法である。比較・量子化方法Ｅは、領域特徴量がベクトル値である場合に重心ベクトルなどの代表ベクトルとの類似度が最も大きい（最短距離）なるように量子化する。比較・量子化方法Ｆは、全次元に対する割合が均等になるように量子化の境界を決定し、それに基づいて量子化を行う。比較・量子化方法Ｇは、すべての次元の差分値の絶対値を算出し、算出した差分値の絶対値をソートして、その上位または下位から、ある規定の割合の点を量子化境界（閾値）とする量子化である。比較・量子化方法Ｈは、比較・量子化方法Ｇのような規定の割合ではなく、＋１、０、−１の量子化インデックスの割合が均等に近づくように、量子化境界（閾値）を決定する。
また、図２１において、Ｍは量子化のレベル数、ｔｈは固定の量子化境界を決める閾値である。
《音響処理装置の動作手順》
図２２は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
図８のＣＰＵ８１０は、ＲＡＭ８４０を使用してこのフローチャートを実行する。図１９，図４，図５および図１９の各機能構成部は、このフローチャートをＣＰＵ８１０により実行する。
なお、本実施形態を実行するためには、図８のＲＡＭ８４０に実行中の次元を記憶する領域とその次元の比較・量子化方法情報を記憶する領域とが追加される。また、ストレージ８５０に比較・量子化方法記憶部１９７０と比較・量子化方法取得モジュールとが追加される。また、図２２では、図９と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
図２２における特徴的なステップは、ステップＳ２２０１の追加である。ステップＳ２２０１において、音響識別子生成部１９４０は、次元ｎに対応する比較・量子化方法あるいはそれを示す情報を、比較・量子化方法記憶部１９７０から取得する。そして、ステップＳ２２０９において、ステップＳ２２０１で取得された比較・量子化方法によって、音響識別子生成部１９４０は、比較・量子化を行うなお、ステップＳ２２０１は、ステップＳ９０５の前にあっても、ステップＳ９０７の後ろにあってもよい。
［第７実施形態］
次に、上記本発明の音響処理装置を適用した本発明の第７実施形態に係る音響処理システムについて説明する。
上記第２乃至第６実施形態と比べると、音響識別子生成方法記憶部が各次元に対応する音響識別子生成方法を記憶して、各次元に対応する音響識別子生成を行なう点で異なる。その他の構成および動作は、第２実施形態、第５実施形態および第６実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、次元間で音響識別子生成方法が異なる（音響識別子生成方法に多様性がある）ことにより、次元間の相関をより一層小さくできる。したがって、第２実施形態の効果に加えて、異なる画像を識別できる度合いである識別能力をより一層高くすることができる。
《音響処理装置の機能構成》
図２３は、本実施形態に係る音響処理装置２３００の機能構成を示すブロック図である。
なお、本実施形態において、第５実施形態の図１５および第６実施形態の図１９と同様の機能を果たす機能構成部には、同じ参照番号を付しその説明は省略する。
本実施形態は、音響識別子生成方法記憶部２３８０を有することが、上記実施形態とは異なっている。音響識別子生成方法記憶部２３８０には、次元に対応付けて、サンプリング方法、フレーム時間長／シフト時間、時間周波数解析方法、領域特徴量抽出方法、比較・量子化方法、が記憶されている。
なお、図２３において次元が領域特徴量抽出部１５３０から出力されているのは、第２実施形態の図５に対応させたものである。次元決定部は領域特徴量抽出部以外の構成要素にあってもよいし、独立した構成要素として外部にあってもよい。
まず、音響識別子生成方法記憶部２３８０は、次元に対応してサンプリング方法を選択する。選択されたサンプリング方法２５０２によりサンプリングされて入力されたサンプル音響信号２３０１ａ〜２３０１ｃのいずれかは、次元に対応して、時間周波数解析部２３１０内から時間周波数解析方法２５０４に従って選択された、第１時間周波数解析部３１０、第２時間周波数解析部１０１０−１、第３時間周波数解析部１０１０−２で解析される。
また、次元に対応してフレーム時間長／シフト時間２５０３が変更されてもよい。なお、図２３にはサンプリング方法および実感周波数解析方法を３つしか示していないが、その数は限定されない。
また、第１時間周波数解析部３１０、第２時間周波数解析部１０１０−１、第３時間周波数解析部１０１０−２は、上記実施形態の図４、図１０Ａ、図１０Ｂに対応させているが、これに限定されるものではない。例えば、図１０Ｃに図示した時間周波数解析部１０１０−３が使用されてもよい。
第１時間周波数解析部３１０、第２時間周波数解析部１０１０−１、第３時間周波数解析部１０１０−１は、それぞれ時間軸と周波数軸との平面上に位置付けられるパワースペクトラムからなる時間周波数データ３１０ａ、１０１０−１ａ、１０１０−２ａを出力する。
時間および周波数が離散化されているそれぞれの時間周波数データは、時間順に時間軸上に並べられて時間周波数平面記憶部２３２０の、第１時間周波数平面２３２０−１、第２時間周波数平面２３２０−２、第３時間周波数平面２３２０−３、に配置される。
領域特徴量抽出部１５３０は、抽出領域記憶部３５０に記憶された２つの部分領域からなる部分領域対から、次元数にしたがって順次に部分領域対を示す次元別抽出領域情報３５０ａを読み出す。
そして、次元に対応した時間周波数平面から部分領域対の各部分領域内のパワースペクトラム２３２０−１ａ、２３２０−２ａまたは２３２０−３ａを時間周波数平面記憶部２３２０から読み出す。
読み出した次元に対応した時間周波数平面から部分領域対の各部分領域内のパワースペクトラムに、次元に対応する領域特徴量抽出方法２５０５による演算を行ない、第１部分領域から第１領域特徴量１５３０ａを抽出し、第２部分領域から第２領域特徴量１５３０ｂを抽出する。
音響識別子生成部１９４０は、次元に対応する比較・量子化方法２５０６に基づいて、第１領域特徴量１５３０ａと第２領域特徴量１５３０ｂとの比較および３値の量子化を行ない、その結果を次元数（部分領域対の数に相当）結合することにより、音響識別子３４０ａを生成する。
（時間周波数解析部）
図２４は、本実施形態に係る時間周波数解析部２３１０の構成を示すブロック図である。
図２４に示すように、本実施形態の時間周波数解析部２３１０の、第１時間周波数解析部３１０は、第２実施形態の図４に示したウェーブレット変換を使用して時間周波数平面を生成する。
第２時間周波数解析部１０１０−１は、図１０Ａに示したＦＦＴ１００２，ｌｏｇ１００３，ＤＣＴ１００４を使用して時間周波数平面を生成する。
第３時間周波数解析部１０１０−２は、図１０Ｂに示したＤＦＴ１００６，ｌｏｇ１００７，サブバンド分割１００８を使用して時間周波数平面を生成する。
それぞれの時間周波数解析部から出力された時間周波数データ３１０ａ、１０１０−１ａ、１０１０−２ａを、時間周波数平面記憶部２３２０の第１時間周波数平面２３２０−１、第２時間周波数平面２３２０−２、第３時間周波数平面２３２０−３、に記憶する。
本実施形態の時間周波数解析部２３１０は、音響識別子生成方法記憶部２３８０からのフレーム時間長／シフト時間や時間周波数解析方法、および、領域特徴量抽出部１５３０からの次元に基づいて選択処理する。そして、次元に対応した時間周波数平面の第１部分領域と第２部分領域とのデータを領域特徴量抽出部１５３０に出力する。
（音響識別子生成方法記憶部）
図２５は、本実施形態に係る音響識別子生成方法記憶部２３８０の構成を示す図である。
なお、図２５の各欄に記載された方法などはその一例であって、この配置に限定されない。音響種別や内容、あるいは音響取得環境、さらには音響記憶媒体などに応じて適切な配置と次元数などが設定される。
図２５の音響識別子生成方法記憶部２３８０は、次元２５０１に対応付けて、サンプリング方法２５０２、フレーム時間長／シフト時間２５０３、時間周波数解析方法２５０４、領域特徴量抽出方法２５０５、比較・量子化方法２５０６、が記憶される。
なお、本実施形態においては、各方法が選択されている例を示しているが、固定にする方法もあってよい。例えば、領域特徴量抽出方法２５０５を次元に対応して選択し他を固定とすれば第５実施形態に相当し、比較・量子化方法２５０６を次元に対応して選択し他を固定とすれば第６実施形態に相当する。
《音響処理装置の動作手順》
図２６は、本実施形態に係る音響処理装置２３００の動作手順を示すフローチャートである。
図８のＣＰＵ８１０は、ＲＡＭ８４０を使用してこのフローチャートを実行する。図２３および図２４の各機能構成部は、このフローチャートをＣＰＵ８１０により実行するなお、本実施形態を実行するためには、図８のＲＡＭ８４０に実行中の次元を記憶する領域とその次元の各方法情報を記憶する領域とが追加され、ストレージ８５０に音響識別子生成方法記憶部２３８０と音響特徴量抽出方法取得モジュールとが追加される。
また、図２６では、図９、図１８，図２２と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
図２６においては、最初のステップＳ９０３において、現在の次元を示すパラメータｎが“１”に初期化される。ステップＳ２６０１において、音響処理装置２３００は、次元ｎに対応して、音響識別子生成方法記憶部２３８０から、サンプリング方法２５０２、フレーム時間長／シフト時間２５０３、時間周波数解析方法２５０４、領域特徴量抽出方法２５０５、比較・量子化方法２５０６、を取得する。次に、ステップＳ２６０３において、時間周波数解析部２３１０は、次元ｎに対応してサンプリングして入力した音響信号に対して、次元ｎに対応した時間周波数解析をして、時間周波数平面を生成する。
以降の処理は、図９と図１８と図２２の処理を組み合わせた手順である。図２６においては、各次元に対応して、サンプリング方法から比較・量子化方法までが選択されて実行され、それらが結合されて音響識別子が生成される。なお、次元に対応して、音響識別子内の配置位置や他の量子化データとの演算方法などが記憶されて、選択されてもよい。
［第８実施形態］
次に、上記本発明の音響処理装置を適用した本発明の第８実施形態に係る音響処理システムについて説明する。
本実施形態に係る音響処理システムは、上記本発明の音響処理装置を、ネットワークを介して送信されてくる音響信号に基づいて音響コンテンツを識別する音響識別システムに適用したものである。音響処理装置の構成および動作は第２乃至第７実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、音響コンテンツの識別を少ない情報量で精度よく実施できる。
《音響処理システムの構成》
図２７は、本実施形態に係る音響処理システム２７００の構成を示すブロック図である。図２７の音響処理システム２７００は、本実施形態の音響処理装置を有する音響識別システム２７１０を有する。
音響識別システム２７１０は、ネットワーク２７８０を介して各種機器から音響信号を受信し、識別結果を各種機器へ送信する通信制御部２７１１を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。音響ＤＢ２７１２は、音響コンテンツまたはそのＩＤに対応付けて予め生成された音響識別子を蓄積している。
音響識別装置２７１３は、本実施形態の音響処理装置が生成した音響識別子と音響ＤＢ２７１２に蓄積された音響識別子とを照合して、所定範囲で合致した音響識別子に対応する音響コンテンツを識別結果として通信制御部２７１１を介して報知する。
音響コンテンツを識別するために音響信号を送信する各種機器としては、ネットワーク２７８０を介して音響信号を音響識別システム２７１０に送信できるものであればよい。例えば、音楽配信サイト２７２０、音楽制作サイト２７３０、音声再生機２７４０、音声録音機２７５０、あるいは、視聴可能な携帯端末２７６０、ノート型のパーソナルコンピュータ（以下、パソコン）２７７０などでもよい。
［第９実施形態］
次に、上記本発明の音響処理装置を適用した本発明の第９実施形態に係る音響処理システムについて説明する。
本実施形態に係る音響処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて音響コンテンツを照合する音響照合システムに適用したものである。音響処理装置の構成および動作は第２乃至第７実施形態に記載したので、その詳しい説明を省略する。
なお、本実施形態においては、照合結果から合致すれば違法性があるものとして報知する例を示すが、これに限定されない。音響照合の結果を利用するあらゆるシステムに適用可能である。
本実施形態によれば、音響コンテンツの照合を少ない情報量で精度よく実施できる。
《音響処理システムの構成》
図２８は、本実施形態に係る音響処理システム２８００の構成を示すブロック図である。
図２８の音響処理システム２８００は、本実施形態の音響処理装置を有する音響照合システム２８１０を有する。
音響照合システム２８１０は、ネットワーク２７８０を介して各種機器から音響信号を受信し、照合結果あるいは違法性判定結果を各種機器へ送信する通信制御部２７１１を有する。
受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。音響ＤＢ２７１２は、音響コンテンツまたはそのＩＤに対応付けて予め生成された音響識別子を蓄積している。
音響照合装置２８１３は、本実施形態の音響処理装置が生成した音響識別子と音響ＤＢ２７１２に蓄積された音響識別子とを照合して、所定範囲で合致した音響コンテンツがあれば、違法性報知部２８１４に通知する。違法性報知部２８１４は、通信制御部２７１１を介して、入力した音響信号が違法コンテンツのものであることを報知する。
音響コンテンツを照合するために音響信号を送信する各種機器としては図２７の機器と同様に、ネットワーク２７８０を介して音響信号を音響照合システム２８１０に送信できるものであればよい。
［第１０実施形態］
次に、上記本発明の音響処理装置を適用した本発明の第１０実施形態に係るビデオ処理システムについて説明する。
本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて映像コンテンツを識別するビデオ識別システムに適用したものである。音響処理装置の構成および動作は第２乃至第７実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、映像コンテンツの識別を少ない情報量で精度よく実施できる。
《ビデオ処理システムの構成》
図２９は、本実施形態に係るビデオ処理システム２９００の構成を示すブロック図である。
図２９のビデオ処理システム２９００は、本実施形態の音響処理装置を有するビデオ識別システム２９１０を有する。
ビデオ識別システム２９１０は、ネットワーク２９８０を介してビデオ信号に含まれる音響信号を各種機器から受信し、識別結果を各種機器へ送信する通信制御部２９１１を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。ビデオＤＢ２９１２は、映像コンテンツまたはそのＩＤに対応付けて予め生成された音響識別子を蓄積している。
ビデオ識別装置２９１３は、本実施形態の音響処理装置が生成した音響識別子とビデオＤＢ２９１２に蓄積された音響識別子とを照合して、所定範囲で合致した音響識別子に対応するビデオコンテンツを識別結果として通信制御部２９１１を介して報知する。
映像コンテンツを識別するために音響信号を送信する各種機器としては、ネットワーク２９８０を介して音響信号をビデオ識別システム２９１０に送信できるものであればよい。例えば、ビデオ配信サイト２９２０、ビデオ制作サイト２９３０、ビデオ再生機２９４０、ビデオ録画機２９５０、あるいは、視聴可能な携帯端末２９６０、ノート型のパソコン２９７０などでもよい。
［第１１実施形態］
次に、上記本発明の音響処理装置を適用した本発明の第１１実施形態に係るビデオ処理システムについて説明する。
本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて映像コンテンツを照合するビデオ照合システムに適用したものである。音響処理装置の構成および動作は第２乃至第７実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、映像コンテンツの照合を少ない情報量で精度よく実施できる。
《ビデオ処理システムの構成》
図３０は、本実施形態に係るビデオ処理システム３０００の構成を示すブロック図である。
図３０のビデオ処理システム３０００は、本実施形態の音響処理装置を有するビデオ照合システム３０１０を有する。
ビデオ照合システム３０１０は、ネットワーク２９８０を介して音響信号を受信し、識別結果を送信する通信制御部２９１１を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。
ビデオＤＢ２９１２は、映像コンテンツまたはそのＩＤに対応付けて予め生成された音響識別子を蓄積している。
ビデオ照合装置３０１３は、本実施形態の音響処理装置が生成した音響識別子とビデオＤＢ２９１２に蓄積された音響識別子とを照合して、所定範囲で合致したビデオコンテンツが有る場合に、違法性報知部３０１４に通知する。違法性報知部３０１４は、通信制御部２９１１を介して、受信した音響信号の映像コンテンツに違法性があることを報知する。
ネットワーク２９８０を介して、映像コンテンツを照合するために音響信号を送信する、図２９と同様の機器が接続されている。なお、接続される機器は、ネットワークを介して音響信号をビデオ照合システム３０１０に送信できるものであれば問わない。
［第１２実施形態］
次に、上記本発明の音響処理装置を適用した本発明の第１２実施形態に係るビデオ処理システムについて説明する。
本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号等に基づいて映像コンテンツを照合するビデオ照合システムに適用したものである。本実施形態のビデオ照合システムにおいては、音響識別子と映像識別子との両方を映像コンテンツの照合に使用する。
なお、違法性の判定は、音響識別子および映像識別子の両方で合致した場合を条件としても、音響識別子または映像識別子のいずれかで合致した場合を条件としてもよい。音響処理装置の構成および動作は第２乃至第７実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、映像コンテンツの照合を少ない情報量でより精度よく実施できる。
《音響処理システムの構成》
図３１は、本実施形態に係るビデオ処理システム３１００の構成を示すブロック図である。
図３１のビデオ処理システム３１００は、本実施形態の音響処理装置を有するビデオ照合システム３１１０を有する。
ビデオ照合システム３１１０は、ネットワーク３１８０を介して各種機器から音響信号および映像識別子を受信し、照合結果を各種機器へ送信する通信制御部３１１１を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。
ビデオＤＢ３１１２は、映像コンテンツまたはそのＩＤに対応付けて予め生成された音響識別子と映像識別子とを蓄積している。なお、映像識別子は、映像のフレームから本実施形態と同様の部分領域対の差分（輝度の）から生成した映像識別子（いわゆる、フレーム特徴量）を使用しても、他の公知の映像識別子を使用してもよい。
ビデオ照合装置３１１３は、本実施形態の音響処理装置が生成した音響識別子とビデオＤＢ３１１２に蓄積された音響識別子とを照合すると共に、通信制御部３１１１が受信した映像識別子とビデオＤＢ３１１２に蓄積された映像識別子とを照合する。
所定範囲で両方にあるいは一方に合致したビデオコンテンツが有る場合に、違法性報知部２７１４に通知する。違法性報知部３１１４は、通信制御部３１１１を介して、受信した音響信号と映像識別子の映像コンテンツに違法性があることを報知する。
ネットワーク３１８０を介して、映像コンテンツを照合するために音響信号と映像識別子を送信する、図２９と同様の機器が接続されている。なお、接続される機器は、ネットワークを介して音響信号および映像識別子をビデオ照合システム３１１０に送信できるものであれば問わない。
また、本実施形態においては、これら機器が音響処理装置と同期してビデオ信号に含まれる映像信号から映像識別子を生成する映像処理装置を備える構成を考えている。しかしながら、ネットワーク３１８０による通信容量が十分であれば、ビデオ照合システム３１１０に映像処理装置を配置してもよい。
［他の実施形態］
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。
したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サーバも、本発明の範疇に含まれる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、２０１１年７月１４日に出願された日本出願特願２０１１−１５５５４１を基礎出願とする優先権を主張し、その開示の全てをここに取り込む。

Claims

音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析手段と、
前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出手段と、
前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成手段と、
を備える、音響処理装置。
前記位置の相違は、
相対的位置関係の相違と絶対位置の相違と
を含む、請求項１に記載の音響処理装置。
前記領域特徴量抽出手段は、
各部分領域におけるパワースペクトラムの代表値または平均値のいずれかを当該部分領域の領域特徴量とする請求項１または２に記載の音響処理装置。
前記音響識別子生成手段は、
前記部分領域対に含まれる２つの部分領域から抽出された領域特徴量を用いて音響識別子要素を生成する要素生成手段を有し、該要素生成手段が生成した音響識別子要素を前記複数の部分領域対の数だけ集めた集合を前記音響識別子とする、
請求項１乃至３のいずれか１項に記載の音響処理装置。
前記要素生成手段は、
前記領域特徴量抽出手段で抽出された領域特徴量の差分値を量子化し、前記音響識別子要素を生成する、
請求項４に記載の音響処理装置。
前記量子化は、
所定の量子化境界による３値の量子化である、
請求項５に記載の音響処理装置。
前記要素生成手段は、
前記領域特徴量抽出手段で抽出された領域特徴量の差分値が、プラスの量子化境界とマイナスの量子化境界との間であれば第１量子化値を生成し、プラスの量子化境界より大きければ第２量子化値を生成し、マイナスの量子化境界より小さければ第３量子化値を生成する、請求項６に記載の音響処理装置。
前記要素生成手段は、
前記第１量子化値、前記第２量子化値および前記第３量子化値となる前記部分領域対の割合が均等になるように、前記量子化境界を決定する第２量子化境界決定手段を有する、
請求項７に記載の音響処理装置。
前記要素生成手段は、
前記領域特徴量抽出手段抽出された領域特徴量の差分値の分布に基づいて、前記量子化境界を決定する第１量子化境界決定手段を有する、
請求項６乃至８のいずれか１項に記載の音響処理装置。
前記要素生成手段は、
前記領域特徴量抽出手段で抽出された領域特徴量の差分値の絶対値をソートし、上位または下位から規定の割合の位置にある値を前記量子化境界として決定する第３量子化境界決定手段を有する、
請求項６乃至８のいずれか１項に記載の音響処理装置。
前記時間周波数解析手段は、
音響信号をサンプリングするサンプリング手段と、
前記サンプリングした音響信号から、順次にシフトして互いにオーバーラップした所定時間長の複数のフレームを切り出すフレーム切出手段と、
前記切り出された複数のフレームの各フレームに対して時間および周波数が離散化された変換を行ない、前記時間周波数平面を生成する平面生成手段と、
を有する、請求項１乃至１０のいずれか１項に記載の音響処理装置。
前記平面生成手段における時間および周波数が離散化された変換は、
ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ），ＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ），ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ），ＭＣＬＴ（ＭｏｄｕｌａｔｅｄＣｏｍｐｌｅｘＴｒａｎｓｆｏｒｍ），ＨａａｒＴｒａｎｓｆｏｒｍ，Ｗａｌｓｈ−ＨａｄａｍａｒｄＴｒａｎｓｆｏｒｍ，ＷａｖｅｌｅｔＴｒａｎｓｆｏｒｍの少なくとも１つを含む、請求項１１に記載の音響処理装置。
前記領域特徴量抽出手段は、前記部分領域対に対応付けて領域特徴量抽出方法を記憶する第１記憶手段を有し、前記部分領域対に対応する領域特徴量抽出方法で領域特徴量を抽出する、請求項１乃至１２のいずれか１項に記載の音響処理装置。
前記音響識別子生成手段は、前記部分領域対に対応付けて比較および量子化方法を記憶する第２記憶手段を有し、前記部分領域対に対応する比較および量子化方法で比較および量子化を行ない、音響識別子を生成する、請求項１乃至１３のいずれか１項に記載の音響処理装置。
前記時間周波数解析手段は、音響信号から異なる時間周波数解析をして複数の時間周波数平面を生成し、
前記領域特徴量抽出手段は、前記時間周波数解析手段により生成された前記複数の時間周波数平面の上に設定された、前記時間周波数平面と２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する、請求項１乃至１４のいずれか１項に記載の音響処理装置。
前記時間周波数解析手段は、さらに、異なるサンプリングをした音響信号から時間周波数解析をして複数の時間周波数平面を生成する、請求項１５に記載の音響処理装置。
請求項１乃至１６のいずれか１項に記載の音響処理装置と、
前記音響処理装置により生成された前記音響識別子を用いて音響の照合を行なう音響照合装置と、
を含む、音響処理システム。
請求項１乃至１６のいずれか１項に記載の音響処理装置と、
前記音響処理装置により生成された前記音響識別子を用いて音響の識別を行なう音響識別装置と、
を含む音響処理システム。
ビデオ信号に含まれる音響信号から音響識別子を生成する請求項１乃至１６のいずれか１項に記載の音響処理装置と、
前記音響処理装置により生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合装置と、
を含む、ビデオ処理システム。
ビデオ信号に含まれる音響信号から音響識別子を生成する請求項１乃至１６のいずれか１項に記載の音響処理装置と、
前記音響処理装置により生成された前記音響識別子を用いてビデオの識別を行なうビデオ識別装置と、
を含む、ビデオ処理システム。
ビデオ信号に含まれる音響信号から音響識別子を生成する請求項１乃至１６のいずれか１項に記載の音響処理装置と、
前記音響処理装置と同期して前記ビデオ信号に含まれる映像信号から映像識別子を生成する映像処理装置と、
前記映像処理装置により生成された前記映像識別子と前記音響処理装置により生成された前記音響識別子とを用いてビデオの照合を行なうビデオ照合装置と、
を含む、ビデオ処理システム。
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
を含む、音響処理装置の制御方法。
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
前記生成された前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
をコンピュータに実行させる、音響処理装置の制御プログラム。
音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の照合を行なう音響照合ステップと、を含む音響処理方法であって、
前記音響処理ステップが、
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
前記生成された前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
を含む、音響処理方法。
音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の識別を行なう音響識別ステップと、を含む音響処理方法であって、
前記音響処理ステップが、
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
前記生成された前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
を含む、音響処理方法。
ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、
前記音響処理ステップが、
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
前記生成された前記時間周波数平面の上に設定され２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
を含む、ビデオ処理方法。
ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、
前記生成された前記音響識別子を用いてビデオの識別を行なうビデオ識別ステップと、を含むビデオ処理方法であって、
前記音響処理ステップが、
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
生成された前記時間周波数平面の上に設定され、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
を含む、ビデオ処理方法。
ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、
前記音響処理ステップに同期して前記ビデオ信号に含まれる映像信号から映像識別子を生成する映像処理ステップと、
前記生成された前記映像識別子と前記生成された前記音響識別子とを用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、
前記音響処理ステップが、
音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
前記生成された前記時間周波数平面の上に設定された、２つの部分領域の形状と前記２つの部分領域の位置との少なくとも１つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
を含む、ビデオ処理方法。