JPWO2013008956A1 - 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム - Google Patents

音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム Download PDF

Info

Publication number
JPWO2013008956A1
JPWO2013008956A1 JP2013524017A JP2013524017A JPWO2013008956A1 JP WO2013008956 A1 JPWO2013008956 A1 JP WO2013008956A1 JP 2013524017 A JP2013524017 A JP 2013524017A JP 2013524017 A JP2013524017 A JP 2013524017A JP WO2013008956 A1 JPWO2013008956 A1 JP WO2013008956A1
Authority
JP
Japan
Prior art keywords
acoustic
time
identifier
region
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013524017A
Other languages
English (en)
Other versions
JP5772957B2 (ja
Inventor
直毅 藤田
直毅 藤田
野村 俊之
俊之 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013524017A priority Critical patent/JP5772957B2/ja
Publication of JPWO2013008956A1 publication Critical patent/JPWO2013008956A1/ja
Application granted granted Critical
Publication of JP5772957B2 publication Critical patent/JP5772957B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決してリアルタイムの音響識別や照合ができる装置を提供する。
音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理装置で、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析部と、生成された前記時間周波数平面上に設定された、2つの部分領域の形状と2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出部と、抽出した各部分領域からの領域特徴量を用いて、音響を識別する音響識別子を生成する音響識別子生成部と、を備える。

Description

本発明は、音響の特徴を識別する識別子の生成技術およびその利用技術に関する。なおここで、本明細書における音響とは、音声および楽曲(音楽)を含むあらゆる音を含む概念として使用している。
上記技術分野において、音響の特徴を識別する音響識別子として、音響信号を解析して得られる音響指紋(オーディオ電子指紋)が知られている。
例えば、非特許文献1における音響処理システムは、サンプリングした音響信号から、5〜10msシフトしてオーバーラップした25msのフレームを切り出す。そして、その音響処理システムは、音響信号に対し高速フーリエ変換(FFT:Fast Fourier Transform)処理と、対数処理と、離散コサイン変換(DCT:Discrete Cosign Transform)処理とを行なって、メル周波数ケプストラムを生成する。その音響処理システムは、メル周波数ケプストラムの低次の12〜16次元をメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)として取り出し、その時間差分から音響指紋を生成する。
非特許文献2における音響処理システムは、11.6msシフトしてオーバーラップした370msのフレームを切り出す。そして、音響処理システムは、離散フーリエ変換(DFT:Discrete Fourier Transform)と、対数処理と、サブバンド分割した平均パワーに対する時間および周波数差分とによって、32次元で表わされた音響指紋を生成する。
非特許文献3における音響処理システムは、11.6msシフトしてオーバーラップした370msのフレームを切り出す。そして、その音響処理システムは、離散ウェーブレット(Wavelet)変換と周波数差分および時間差分とによって、32次元で表わされた音響指紋を生成する。
また、特許文献1における音響処理システムは、オーバーラップした10〜30msのフレームを切り出し、フーリエ変換,メルスケールやバークスケールによる分割,窓関数を用いた平均値算出を経て時間−周波数セグメントを生成する。そして、2次元DCT(Discrete Cosine Transform)した後にその低域を音声特徴量とする。
特許文献1における音響処理システムは、例えば、112個の要素の音声特徴量が生成されるが、使用時の処理速度を考慮して、低域の30個の要素を音声認識や話者認識のための音声特徴量として選択する。
また、特許文献2における音響処理システムは、50%オーバーラップした64msのフレームに対してFFTを行なって特徴ベクトルを生成し、例えば、M=13のバンドの隣接バンド対について差分を取り、差分結果に基づいてエンコードしたオーディオ指紋を生成する。
特開2003−044077号公報 特開2007−065659号公報
P.Cano,E.Batlle,T.Kalker,and J.Haitsma,"A review ofalgorithms for audio fingerprinting",in International Workshop on Mutimedia Signal Processing,Dec.2002. Jaap Haitsma,Ton Klker"A Highly Robust Audio Fingerprinting System"Proc.ISMIR 2002 3rd International Conference on Music Information Retrieval 井口 寧,and Vijay K.Jain"適正な音楽流通のためのインターネットを介したオーディオ電子指紋の超高速検出"財団法人電気通信普及財団、研究調査報告書 No.24 2009,p604−615
しかしながら、上記背景技術における音響処理システムは、時間精度を上げて他の音響との混合に頑健とすることがまだ不十分であり、また、計算量を削減したリアルタイムの音響識別や照合のためにどの特徴量ベクトルの次元も30次元ほどに制限されている。
そのため、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決したリアルタイムの音響識別や照合ができなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
本発明に係る音響処理装置は、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析手段と、前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出手段と、前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成手段と、を備える。
本発明に係る音響処理システムは、上記記載の音響処理装置と、前記音響処理装置により生成された前記音響識別子を用いて音響の照合又は識別を行なう音響照合装置と、を含む。
本発明に係るビデオ処理システムは、ビデオ信号に含まれる音響信号から音響識別子を生成する上記記載の音響処理装置と、前記音響処理装置により生成された前記音響識別子を用いてビデオの照合又は識別を行なうビデオ照合装置と、を含む。
本発明に係る音響処理装置の制御方法は、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む、
本発明に係る音響処理装置の制御プログラムは、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、をコンピュータに実行させる。
本発明に係る音響処理方法は、音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の照合を行なう音響照合ステップと、を含む音響処理方法であって、前記音響処理ステップが、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む。
本発明に係るビデオ処理方法は、ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、前記音響処理ステップが、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む。
本発明によれば、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決してリアルタイムの音響識別や照合ができる。
図1は、本発明の第1実施形態に係る音響処理装置の構成を示すブロック図である。 図2は、本発明の第2実施形態に係る音響処理の概念を示す図である。 図3は、本発明の第2実施形態に係る音響処理装置の機能構成を示すブロック図である。 図4は、本発明の第2実施形態に係る時間周波数解析部の構成を示すブロック図である。 図5は、本発明の第2実施形態に係る領域特徴量抽出部の構成を示すブロック図である。 図6Aは、本発明の第2実施形態に係る抽出領域記憶部の構成を示す図である。 図6Bは、本発明の第2実施形態に係る次元別抽出領域情報の具体例を示す図である。 図7は、本発明の第2実施形態に係る音響識別子生成部の構成を示すブロック図である。 図8は、本発明の第2実施形態に係る音響処理装置のハードウェア構成を示すブロック図である。 図9は、本発明の第2実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図10Aは、本発明の第2実施形態に係る時間周波数解析部の他の構成を示すブロック図である。 図10Bは、本発明の第2実施形態に係る時間周波数解析部のさらに他の構成を示すブロック図である。 図10Cは、本発明の第2実施形態に係る時間周波数解析部のさらに他の構成を示すブロック図である。 図11は、本発明の第3実施形態に係る音響処理の概念を示す図である。 図12は、本発明の第3実施形態に係る音響識別子生成部の構成を示すブロック図である。 図13は、本発明の第4実施形態に係る音響識別子生成部の構成を示すブロック図である。 図14は、本発明の第4実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図15は、本発明の第5実施形態に係る音響処理装置の機能構成を示すブロック図である。 図16は、本発明の第5実施形態に係る領域特徴量抽出部の構成を示すブロック図である。 図17は、本発明の第5実施形態に係る領域特徴量抽出方法記憶部の構成を示す図である。 図18は、本発明の第5実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図19は、本発明の第6実施形態に係る音響処理装置の機能構成を示すブロック図である。 図20は、本発明の第6実施形態に係る音響識別子生成部の構成を示すブロック図である。 図21は、本発明の第6実施形態に係る比較・量子化方法記憶部の構成を示す図である。 図22は、本発明の第6実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図23は、本発明の第7実施形態に係る音響処理装置の機能構成を示すブロック図である。 図24は、本発明の第7実施形態に係る時間周波数解析部の構成を示すブロック図である。 図25は、本発明の第7実施形態に係る音響識別子生成方法記憶部の構成を示す図である。 図26は、本発明の第7実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図27は、本発明の第8実施形態に係る音響処理システムの構成を示すブロック図である。 図28は、本発明の第9実施形態に係る音響処理システムの構成を示すブロック図である。 図29は、本発明の第10実施形態に係るビデオ処理システムの構成を示すブロック図である。 図30は、本発明の第11実施形態に係るビデオ処理システムの構成を示すブロック図である。 図31は、本発明の第12実施形態に係るビデオ処理システムの構成を示すブロック図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
[第1実施形態]
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。
音響処理装置100は、音響信号101aの時間周波数解析に基づいて音響を識別する音響識別子104aを生成する装置である。図1に示すように、音響処理装置100は、時間周波数解析部101と、領域特徴量抽出部103と、音響識別子生成部104と、を備える。
時間周波数解析部101は、音響信号101aから時間周波数解析して時間周波数平面102を生成する。時間周波数平面102には、2つの部分領域の形状と2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対102−1,102−2が設定される。
領域特徴量抽出部103は、複数の部分領域対102−1,102−2について、各部分領域から領域特徴量103a,103bを抽出する。
音響識別子生成部104は、領域特徴量抽出部103が抽出した各部分領域からの領域特徴量103a,103bを用いて、音響を識別する音響識別子104aを生成する。
本実施形態の音響処理装置は、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決するリアルタイムの音響識別ができる。
[第2実施形態]
次に、本発明の第2実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、音響信号から時間周波数解析によって得られた時間周波数平面上に、2つの部分領域からなる部分領域対の各部分領域の領域特徴量を抽出する。そして、この領域特徴量を比較した大小の結果を量子化する。
例えば、量子化は3値、次元は音響識別子の精度として十分な300次元とする。300次元は、時間周波数平面上の部分領域対における部分領域の形状と位置との組み合わせを変えることで生成される。この場合、600ビット(=2ビット(3値)×300)で表わされ、75バイトの音響識別子が生成される。
この他、第2の実施の形態における音響処理装置は、連続する一連の時間周波数平面を生成して一連の音響識別子を生成する。その結果、更に精度の高い音響識別子が得られる。
本実施形態によれば、少ない情報により記憶容量が少なくて済み、かつ、リアルタイムに音響識別子が生成できる。そのため、音響識別子の比較処理が必要な音響識別や音響照合などもリアルタイムで実現できる。
《音響処理の概念》
図2は、本実施形態に係る音響処理装置200(図3)の処理概念を示す図である。
なお、時間周波数平面の生成は種々の方法が知られているので、図2には、時間周波数平面生成後の処理を示す。
図2の第1の処理210は、音響信号を時間周波数解析して複数の時間周波数平面を生成し複数の部分領域対を生成した状態を示す。時間周波数平面のそれぞれの内部に部分領域対が設定される。
各部分領域対は、部分領域間の相対的位置関係の相違又は絶対位置の相違を含む位置関係の相違と、部分領域の形状の相違との少なくともいずれかを有す。
図2の第2の処理230は、各部分領域から領域特徴量を抽出する状態を示す。同じ時間周波数平面220内において、部分領域対のそれぞれの部分領域とその部分領域間の差分を取る関係が表現されている。
時間周波数平面220内に部分領域対の2つの部分領域が設定されて、それぞれの部分領域に含まれるパワースペクトラムの代表値あるいは平均値などが算出され、その差分が算出さる様子が各部分領域の中心を結ぶ矢印で示されている。
図2の第3の処理240は、算出された差分を量子符号化する様子を示したものである。
第3の処理240では、第1領域特徴量から第2領域特徴量を差し引いた差分が、差分“0”(パワースペクトラムが等しい場合に相当)であれば“0”を量子符号化の出力値とする。同じ差分が正(+)の値であれば“+1”を量子符号化の出力値とする。同じ差分が負(−)の値であれば“−1”を量子符号化の出力値とする。
このように、“−1”、“0”、“+1”の3値の量子化値に符号化するのは、できるだけ多次元とすることで音響特徴量の分離を容易にし、かつ音響特徴量の照合の計算量を削減するためである。
したがって、本実施の形態は、上記3値の例に限定される必要はなく、2値化による構成であってもよい。このようにして、音響識別子の要素となる音響識別子要素が生成される。この音響識別子要素生成が次元数(部分領域対の数)だけ繰り返される。
図2の240aは、差分の量子符号化の結果を集めて生成された音響特徴量の例を示している。音響特徴量240aは、簡単な例としては、差分の量子符号化された値を一次元方向に次元順に並べたデータである。
例えば300次元であれば、600ビット(=2ビット(3値)×300)で表わされ、75バイトの音響識別子が生成される。なお、音量識別子は、単純に差分の量子符号化された値を一次元方向に次元順に並べたデータではなく、多次元方向に並べたものやさらに追加の演算を加えたデータであってもよく、本例には限定されない。
《音響処理装置の機能構成》
図3は、本実施形態に係る音響処理装置200の機能構成を示すブロック図である。
時間周波数解析部310は、入力されたサンプル音響信号301aを解析し時間周波数データ310aを出力する。時間周波数データ310aは、時間軸と周波数軸との平面上に位置付けられるパワースペクトラムである。
ここで、サンプル音響信号301aのサンプリング周期は、入力される音響に応じて調整できることが望ましい。例えば、CD(Compact Disk)から再生した音声だとサンプリング周波数を44.1kHzとしてサンプリングするのが望ましい。また、DVD(Digital Versatile Disk)から再生した音声だとサンプリング周波数を48kHzとしてサンプリングするのが望ましい。
短いサンプリング周期ほど、瞬間的な音の再現性がよい、雑音が少ないなどのメリットがあるので、サンプリング周波数を高くするのが好ましい。このように、入力される音響の特徴、例えば記憶媒体の種別や再生装置の特徴などの基づき適切なサンプリング周波数(サンプリング周期)が選択される。
時間周波数平面記憶部320は、時間および周波数が離散化された時間周波数データ310aを、時間順に時間軸上に並べて時間周波数平面に配置する。
領域特徴量抽出部330は、抽出領域記憶部350に記憶された2つの部分領域からなる部分領域対から、次元数にしたがって順次に部分領域対を示す次元別抽出領域情報350aを読み出す。
そして、領域特徴量抽出部330は、その部分領域対の各部分領域内のパワースペクトラム320aを時間周波数平面記憶部320から読み出して所定演算を行ない、第1部分領域から第1領域特徴量330aを抽出し、第2部分領域から第2領域特徴量330bを抽出する。ここでの所定演算としては、部分領域内のパワースペクトラムの平均、最大値、メディアン値、最頻値、などから選ばれる。
音響識別子生成部340は、第1領域特徴量330aと第2領域特徴量330bとの比較による大小関係により3値の量子化を行ない、その結果を次元数(部分領域対の数に相当)結合することにより、音響識別子340aを生成する。
(時間周波数解析部)
図4は、本実施形態に係る時間周波数解析部310の構成を示すブロック図である。
時間周波数解析部310は、フレーム切出部401とウェーブレット変換部402とを有する。フレーム切出部401は、サンプル音響信号301aから所定時間ごとシフトしながら所定時間長を有するフレームを切り出す。フレーム切出部401は、使用するシフト時間401aとフレーム時間長401bとを記憶している。
シフト時間401aとしては、本技術分野でよく使用される10ms前後、特に11.6msを使用する。フレーム間のシフト時間は、5ms〜15msの範囲が好ましい。また、フレーム時間長401bとしては、たとえば30ms前後を使用する。なお、フレーム時間長に制限はない。
本実施形態においては、フレーム時間長として30ms〜数秒の範囲とした。このフレーム時間長は、全周波数領域の情報量を落とさないようにするために必要である。しかしながら、フレーム時間長により処理の遅延が発生し、実時間の処理が難しくなる場合もある。
そのため、フレーム時間長が長い場合は、サンプル周期を一定にせず、例えば、開始時間の周期を短く、徐々に周期を延ばすように、適宜間引きすることも可能である。これにより、開始時間付近の瞬間的な音の再現性を維持しながら、低い周波数の再現性も改善できる。
ウェーブレット変換部402は、各フレーム内のサンプル音響信号に対してウェーブレット変換を行なう。そして、ウェーブレット変換部402は、時間周波数平面上のパワースペクトラムである時間周波数データ310aを出力する。その時間周波数データ310aを時間軸に並べることによって、時間周波数平面が生成される。
なお、ウェーブレット変換は、非特許文献3の処理の一部として記載されているようによく知られているためここでは詳説しない。
(領域特徴量抽出部)
図5は、本実施形態に係る領域特徴量抽出部330の構成を示すブロック図である。
領域特徴量抽出部330は、次元決定部501と、抽出領域取得部502と、領域特徴量抽出部503とを有する。領域特徴量抽出部503は、部分領域対の第1抽出領域の特徴量を抽出する第1領域特徴量抽出部503Aと、第2抽出領域の特徴量を抽出する第2領域特徴量抽出部503Bとを含む。
次元決定部501は、領域特徴量抽出部330にて部分領域対を用いて領域特徴量を抽出する次元を決定する。
なお、次元決定部501の次元は、予め決められた次元を記憶部で記憶する構成でもよい。また、オペレータが対象音響の種別などに対応して設定する構成でも、音響処理装置200が対象音響の種別などを判定して設定する構成であってもよい(図示せず)。
抽出領域取得部502は、次元決定部501から次元の数を取得し、抽出領域記憶部350からの部分領域対の情報である次元別抽出領域情報350aを取得する。そして、部分領域対の各部分領域を第1抽出領域情報と第2抽出領域情報として出力する。以下、音響識別子生成部340における大小あるいは差分における基準(差分においては引く側)を、第1領域とする。
領域特徴量抽出部503の第1領域特徴量抽出部503Aは、時間周波数平面記憶部320から読み出したパワースペクトラム320aから、第1抽出領域内のパワースペクトラムを取り出して第1領域特徴量330aを抽出する。なお、特徴量抽出のための演算方法には、平均値や最大値など種々あるが(図17参照)、本実施形態では平均値を特徴量とする場合を説明する。
第2領域特徴量抽出部503Bは、時間周波数平面記憶部320から読み出したパワースペクトラム320aから、第2抽出領域内のパワースペクトラムを取り出して第2領域特徴量330bを抽出する。なお、第1領域と第2領域との特徴量抽出のための演算方法は通常同じであるが、異なる演算方法を組み合わせてもよい。
(抽出領域記憶部)
図6Aは、本実施形態に係る抽出領域記憶部350の構成を示す図である。
図6Aの抽出領域記憶部350は、各次元(第1次元,第2次元,…,第n次元)601に対応付けて、第1抽出領域情報602として4つの座標を記憶し、第2抽出領域情報603として4つの座標を記憶する。
なお、図6Aは、各抽出領域が4つの座標で表された矩形の情報を示しているが、部分領域である抽出領域の情報は4つの座標に限らない。例えば、抽出領域記憶部350は、抽出領域形状が方形であれは対角の2つの座標を記憶すればよい。また、その形状が複雑な形状の抽出領域であれば4つ以上の特徴点を記憶すればよい。さらに、その形状が曲線の場合は、抽出領域記憶部350は焦点と半径、あるいは、スプライン曲線のパラメータなどを記憶してもよい。
図6Bは、本実施形態に係る次元別抽出領域情報350aの具体例を示す図である。
図6Bは、12次元に相当する12種類の部分領域対を示す図である。図6Bに示すように部分領域対の各部分領域の形状や位置は、時間周波数平面上の部分領域対が、対象とする音響の識別に有効な情報を含むよう決定することが望ましい。
また、1つの部分領域対の決定ではなく、他の部分領域対との関連を総合的に好著して抽出領域を決定してもよい。例えば、音響の種別に応じて、各次元の部分領域対の順序を特徴付けるものを前に置くように変更してもよい。
(音響識別子生成部)
図7は、本実施形態に係る音響識別子生成部340の構成を示すブロック図である。
本実施形態の音響識別子生成部340は、大小比較部701と量子化部702とデータ結合部703とを有する。
大小比較部701は、領域特徴量抽出部330から出力された第1領域特徴量330aと第2領域特徴量330bとを入力し、大小比較してその大小比較結果を出力する。本実施形態においては、上述の如く、第2領域特徴量330bが第1領域特徴量330aより大きいか/等しいか/小さいかを示す情報を出力する。
量子化部702は、大小比較結果から、第2領域特徴量が第1領域特徴量より大きければ量子化データとして“1”を出力する。また、第2領域特徴量が第1領域特徴量と等しければ、量子化部702は量子化データとして“0”を出力する。また、第2領域特徴量が第1領域特徴量より小ければ、量子化部702は量子化データとして“−1”を出力する。
いわゆる3値化の量子化を行なう(図2の第3の処理240参照)。かかる3値化は少ないビット数(2ビット)で演算処理の高速化を図ると同時に精度を上げるための情報量を確保するためである。
データ結合部703は、量子化部702から出力された3値の量子化データを次元決定部501からの次元数分結合して、対象音響の音響識別子340aを出力する。
なお、結合方法は、3値の量子化データを単純に出力順に次元数分並べてもよいし、より特徴を有する(相違点が大きい)と判断する量子化データを集めてもよい。また、生成された音響識別子を保存する場合は符号化に合わせて“0”を集めてもよい。
あるいは、単に量子化データを集めるのではなく、何らかの数値演算や論理演算を行なってもよい。
《音響処理装置のハードウェア構成》
図8は、本実施形態に係る音響処理装置200のハードウェア構成を示すブロック図である。
図8で、CPU810は演算制御用のプロセッサであり、プログラムを実行することで図3の各機能構成部を実現する。ROM820は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。なお、音響処理装置200がネットワークに接続して、ネットワークを介してデータを送受信する、あるいは操作する場合には、通信制御部を有する(図示せず)。
RAM840は、CPU810が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM840には、本実施形態の実現に必要なデータを記憶する領域が確保されている。
RAM840は、サンプルされて入力された音響信号データ841、シフト時間401aとフレーム時間長401bにしたがって、音響信号から切り出されたフレームデータ842、各フレームデータ842から生成された時間周波数データ843、ある1つの次元の部分領域対の第1抽出領域情報844、ある1つの次元の部分領域対の第2抽出領域情報845、第1抽出領域の第1領域特徴量330a、第1領域特徴量330aと第2領域特徴量330bとの大小比較結果846、大小比較結果846から3値化された量子化データ847、3値化された量子化データ847を次元数分結合した音響識別子340、を記憶する。
ストレージ850は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要なデータまたはプログラムを格納する。
より具体的には、ストレージ850は、抽出領域記憶部350(図6A、図6B参照)、フレーム間のシフト時間401a、各フレームのフレーム時間長401b、次元決定部501の次元851、複数のフレームから生成された時間周波数平面データ320bを記憶する。
また、ストレージ850は、全体の処理を実行させる音響処理プログラム852を記憶する。その音響処理プログラム852には、時間周波数解析を行なう時間周波数解析モジュール853、各次元の領域特徴量を抽出する領域特徴量抽出モジュール854、領域特徴量を次元数分集めて音響識別子を生成する音響識別子生成モジュール855が含まれる。
入力インタフェース860は、音響信号をデジタルデータとして入力するインタフェースである。また、出力インタフェースは、生成された音響識別子を出力するインタフェースである。
なお、図8には、OSなどの汎用のデータやプログラムは示していない。
《音響処理装置の動作手順》
図9は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図3〜図5および図7の各機能構成部は、このフローチャートをCPU810により実行する。
始めに、ステップS901において、時間周波数解析部310は、入力された音響信号に対して時間周波数解析をして、時間周波数平面を生成する。ステップS903において、領域特徴量抽出部330の次元決定部501は、以下のステップS905〜S915を各次元についてループするループ用パラメータnを1に初期化する。
各次元のループは、ステップS905において、領域特徴量抽出部330の抽出領域取得部502は、次元nの第1抽出領域と第2抽出領域の部分領域対を取得する。
ステップS907において、領域特徴量抽出部330の領域特徴量抽出部503は、次元nの第1領域特徴量と第2領域特徴量とを算出する。そして、ステップS909において、音響識別子生成部340の大小比較部701は、次元nの第1領域特徴量と第2領域特徴量とを比較し、音響識別子生成部340の量子化部702は、比較結果を3値量子化して量子化データを出力する。ステップS911においては、音響識別子生成部340のデータ結合部703は、次元nの量子化データを次元n−1までの量子化データに追加する。ステップS913において、音響識別子生成部340は、決定されているN次元までの量子化データの算出が終了したかを判断する。量子化データの算出が終了してなければステップS915に進んで、ループ用パラメータnに+1をする(図9では、n=n+1)して、ステップS905に戻る。
一方、量子化データの算出が終了していればステップS917に進んで、音響識別子生成部340は、生成された音響識別子を出力する。
(時間周波数解析部の他の構成)
図10Aは、本実施形態に係る時間周波数解析部の他の構成の時間周波数解析部1010−1を示すブロック図である。
時間周波数解析部1010−1は、フレーム切出部401と、高速フーリエ変換(以下、FFTと示す)部1002と、メルスケール(以下、logと示す)処理部1003と、離散コサイン変換(以下、DCTと示す)部1004とを有する。フレーム切出部401は、シフト時間やフレーム時間長の選択はあるが、基本的な動作が図4と同様であるので説明は省略する。
FFT部1002は、切り出されたフレーム内の音響信号の周波数成分を解析する。log処理部1003は、その周波数成分の絶対値に複数の周波数領域の窓(メル尺度)をかけた積分値に対する対数をとる処理を実行する。DCT部1004は、log処理部1003の出力に対して、スペクトル情報を低域に集める処理を実行する。DCT1004の出力の低次の12〜16次元を取り出したメル周波数ケプストラム係数(以下、MFCCと示す)は、本実施形態の時間周波数平面に時間順に配置する時間周波数データ1010−1aとして使用される。
かかる時間周波数解析は、非特許文献1に示された構成と同様な構成を用いることができる(その詳細な処理の説明は、非特許文献1を参照されたい)。
(時間周波数解析部のさらに他の構成)
図10Bは、本実施形態に係る時間周波数解析部における更に他の構成の時間周波数解析部1010−2を示すブロック図である。かかる時間周波数解析は、非特許文献2に示された構成と同様な構成を用いることができる(その詳細な処理の説明は、非特許文献2を参照されたい)。
時間周波数解析部1010−2は、フレーム切出部401と、離散フーリエ変換(以下、DFTと示す)部1006と、メルスケール(log)処理部1007と、サブバンド分割部1008とを有する。フレーム切出部401は、シフト時間やフレーム時間長の選択はあるが、基本的な動作が図4と同様であるので説明は省略する。
DFT部1006は、切り出されたフレーム内の音響信号の離散した周波数成分を解析する。log処理部1007は、周波数成分の絶対値に複数の周波数領域の窓(メル尺度)をかけた積分値に対する対数をとる処理を実行する。
サブバンド分割部1008は、log処理部1007の出力を33のバンド幅に分割して、その平均パワーを算出する。サブバンド分割1008の出力は、本実施形態の時間周波数平面に時間順に配置する時間周波数データ1010−2aである。
(時間周波数解析部のさらに他の構成)
図10Cは、本実施形態に係る時間周波数解析部の更に他の構成の時間周波数解析部1010−3を示すブロック図である。かかる時間周波数解析は、次の非特許文献4に記載された構成を用いることができる(その詳細な説明は、下記の文献を参照されたい。
Masataka Goto,″A Chorus Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station″,IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,VOL.14,NO.5,SEPTEMBER 2006 1783
時間周波数解析部1010−3は、フレーム切出部401と、高速フーリエ変換(FFT)部1002または離散フーリエ変換(DFT)部1006と、クロマベクトル(chroma vector)算出部1009とを有する。フレーム切出部401は、シフト時間やフレーム時間長の選択はあるが基本的な動作が図4と同様であるので説明は省略する。
FFT1002またはDFT1006は、切り出されたフレーム内の音響信号の周波数成分を解析する。クロマベクトル算出部1009は、クロマ(音名:chroma)を周波数軸としてパワーの分布を表現した特徴量であるクロマベクトルを算出する。クロマベクトル算出部1009の出力を、本実施形態の時間周波数平面に時間順に配置する時間周波数データ1010−3aとして使用する。
なお、本実施形態では、非特許文献1〜3でそれぞれ使用している手順の一部を時間周波数平面の作成に適用したが、これに限定されるものではない。
一般に、音響信号からシフトしながらオーバーラップするフレームを切り出し、周波数解析してパワースペクトラムの周波数分布を算出する。そして、異なる周波数幅を選択するウインドウ関数や区間関数を複数設定して平均パワーを算出することで、時間周波数平面が作成可能であることは知られている。
上述のFFT(Fast Fourier Transform),DFT(Discrete Fourier Transform),DCT(Discrete Cosine Transform),MCLT(Modulated Complex Transform),Haar Transform,Walsh−Hadamard Transform,Wavelet Transform、log、chroma vector算出などの処理は、その具体例の一部である。
[第3実施形態]
次に、本発明の第3実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、上記第2実施形態において第1領域特徴量と第2領域特徴量とが等しい場合を“0”に量子化したのに比べ、3値量子化において“0”と量子化する差分の範囲を設定する点で異なる。すなわち、第1領域特徴量と第2領域特徴量との差分が所定範囲にある場合には、音響処理装置は、特徴が無いとして“0”に量子化する。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、特徴のある部分領域対と特徴の少ない部分領域対とを分離することにより、情報量の低減と共に冗長性を無くして音響識別子の精度を上げることができる。
《音響処理の概念》
図11は、本実施形態に係る音響処理の概念を示す図である。
なお、時間周波数平面の生成は種々の方法が知られているため、図11は、時間周波数平面の生成後の処理を示す。そして、図11の第1の処理210、時間周波数平面220および第2の処理230は、第2実施形態の図2と同様であるので、その説明は省略する。
図11の第4の処理1140は、算出された差分を量子符号化する様子を示したものである。
第4の処理1140では、第1領域特徴量から第2領域特徴量を差し引いた差分が、差分“+α”から“−β”の間であれば(図11の破線1141aから1141bの間に相当)であれば“0”を量子符号化の出力値とする。同じ差分が+αより大きい値であれば“+1”を量子符号化の出力値とする。同じ差分が−βより小さい値であれば“−1”を量子符号化の出力値とする。
ここで、“α”や“β”の値は、対象とする音響の種別によって適切な値は異なる。例えば、音楽か音声かによっては異なる値を設定してもよい。特に、決まった楽器や、あるいは決まった音響を照合する場合には、最適な値を設定するのが望ましい。
音響特徴量1140aは、簡単な例としては、差分の量子符号化した値を一次元方向に次元順に並べたものである。例えば300次元であれば600ビット(=2ビット(3値)×300)で表わされ、75バイトの音響識別子が生成される。
なお、単純に差分の量子符号化された値を一次元方向に次元順に並べたものではなく、多次元方向に並べたものやさらに追加の演算を加えたものであってもよく、本例には限定されない。
(音響識別子生成部)
図12は、本実施形態に係る音響識別子生成部1240の構成を示すブロック図である。
音響識別子生成部1240は、差分値算出部1241と、量子化部1242と、量子化境界情報記憶部1244と、データ結合部703とを有する。なお、データ結合部703の機能は、第2実施形態の図7と同様であるので説明は省略する。
差分値算出部1241は、領域特徴量抽出部330から出力された第1領域特徴量330aと第2領域特徴量330bとの差分を算出する。本例では、符号付き差分=(第2領域特徴量−第1領域特徴量)である。
量子化境界情報記憶部1244は、予め設定された3値量子化の閾値である量子化境界情報を記憶している。なお、量子化境界情報は、図11に示したようにプラスとマイナスとで数値が異なる“+α”、“−β”であってもよいし、同じ数値であってもよい。また、量子化境界情報記憶部1244はスイッチなどのハードウェア構成であっても、オペレータが操作部から入力するソフトウェア構成であってもよい。
量子化部1242は、差分値算出部1241の出力である符号付きの差分値と、量子化境界決定部1244により設定された量子化境界情報に基づいて“+1”、“0”、“−1”の3値の量子化データを出力する。
[第4実施形態]
次に、本発明の第4実施形態に係る音響処理装置について説明する。
第3実施形態のように、量子化の境界が固定化されると、特定の音響に対して、有意な値(+1や−1)が音響識別子の特定位置に偏るという事態が発生する(エントロピーが低くなる)。したがって、これらの音響に対して識別能力が低下するという問題が発生する。
本実施形態に係る音響処理装置は、上記第3実施形態と比べると、3値量子化の量子化境界情報を装置内部で自動的に設定する点で異なる。本実施形態においては、全次元の差分値の分布に基づいて、量子化境界情報を決定する。その他の構成および動作は、第3実施形態と同様であるため、同じ構成および動作は同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、量子化の境界が音響に対して適応的に(動的に)算出されることにより、どの音響に対しても有意な値(+1や−1)が音響識別子の特定位置に偏ることを抑えることができる。そのため、識別能力を高くすることができる。
(音響識別子生成部)
図13は、本実施形態に係る音響識別子生成部1340の構成を示すブロック図である。
音響識別子生成部1340は、差分値算出部1241と、量子化部1242と、量子化境界決定部1344と、データ結合部703とを有する。なお、差分値算出部1241と、量子化部1242と、データ結合部703の機能は、第3実施形態の図12と同様であるので説明は省略する。
量子化境界決定部1344は、差分値算出部1241から供給される第1領域特徴量330aと第2領域特徴量330bとの全次元の差分値が供給されると、全次元の差分値の分布に基づいて、量子化の境界を決定し、決定した量子化境界情報を量子化部1242へ供給する。ここで、全次元の差分値の分布とは、差分値に対する生起の頻度(確率)である。
なお、差分値がスカラー量である場合は、例えば、各量子化レベル(+1、0、−1)に対する値域(すなわち閾値)を決定し、その値域(閾値)を量子化境界情報として量子化部1242へ供給する。また、差分値がベクトル量である場合は、例えばベクトル量子化を行うためのパラメータ、例えば、各量子化インデックスの代表ベクトル(重心ベクトルなど)を決定し、それを量子化境界の情報として量子化部1242へ供給する。
量子化境界決定部1344は、差分値がスカラー量の場合であって、M値の量子化を行う場合(M=2、3、…など)に、すべての次元の差分値の分布に基づいて、それぞれの量子化インデックスの全次元に対する割合が均等になるように、量子化の値域(閾値)を決定してもよい。
また、例えば、差分値がスカラー量の場合であって3値の量子化を行う場合、量子化境界決定部1344は、差分がないことを示す“0”に量子化する際の範囲を示す閾値を、全次元の差分値の分布に基づいて決定する。続いて量子化境界決定部1344は、決定した閾値を量子化部1242へ供給する。。例えば、量子化境界決定部1344は、全次元の差分値の絶対値を算出し、算出した差分値の絶対値をソートして、その上位または下位から、ある規定の割合(なおこの規定の割合は、例えば、入力として供給されるとする)の点を閾値として出力してもよい。
規定の割合として、百分率でP%とした場合(例えばP=25%)を例に挙げて、具体的に説明する。量子化境界決定部1344は、全次元(次元数=Nとする)の差分値の絶対値を昇順にソートする。この場合、昇順にソートされた差分値の絶対値の集合は、D(i)={D(0)、D(1)、D(2)、…、D(N−1)}と表わされる。ここで、昇順にソートされた順列の下位からP%の位置にある値は、例えば、D(floor(N×P/100))となり、閾値th=D(floor(N×P/100))となる。なお、floor()は、小数点以下の切り捨てを行う関数である。
なお、量子化境界決定部1344は、上述のような規定の割合を閾値とする他に、例えば、(+1、0、−1)の量子化データの割合が均等に近づくように閾値を決定してもよい。
本実施形態の量子化境界決定部1344による量子化境界の決定によれば、例えば、第3実施形態における固定化された閾値を用いた場合、時間周波数平面でパワーススペクトラムに起伏の少ない音響は、大多数の次元(またはすべての次元)の量子化データが“0”になってしまう余地が有る。
これに対して、本実施形態における適応的な閾値を用いると、起伏の少ない音響に対しては閾値が小さい値に自動的に調整されるため、大多数の次元の量子化データが“0”になるような事態が発生しない。
《音響処理装置の動作手順》
図14は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図3〜図5および図13の各機能構成部は、このフローチャートをCPU810により実行する。なお、本実施形態を実行するためには、図8のRAM840に量子化境界のデータを記憶する領域が追加され、ストレージ850に量子化境界決定モジュールが追加される。
また、図14では、第2実施形態の図9におけるステップS901とS917とは記載を省略している。また、図9と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
まず、各次元の差分演算するループでは、ステップS905において、領域特徴量抽出部330の抽出領域取得部502は、次元nの第1領域特徴量と第2領域特徴量を取得する。そしてステップS907において、領域特徴量抽出部330の領域特徴量抽出部503は、次元nの第1領域特徴量と第2領域特徴量とを算出する。その後、ステップS1409において、差分値算出部1241は、次元nの第1領域特徴量と第2領域特徴量との差分値を算出する。ステップS1411においては、次元nの差分値を次元nに対応付けて記憶する。
音響識別子生成部1340は、全次元の差分値の演算が終了すると、ステップS913からS1413に進んで、音響識別子生成部1340の量子化境界決定部1344は、全次元の差分値の分布に基づいて量子化境界を決定する。
次に、各次元の量子化ループでは、まずステップS1415において、ループ値nを“1”に初期化する。ステップS1417において、音響識別子生成部1340の量子化部1242は、次元nの差分値を量子化し、量子化データを出力する。そして、ステップS1419において、音響識別子生成部1340のデータ結合部703は、出力された次元nの量子化データを次元n−1までの量子化データに追加する。
ステップS1421において、音響識別子生成部1340は、ループ値nが全次元数NになるまでステップS1423で+1をしながら各次元の量子化ループを繰り返す。全次元の量子化が終了すればステップS917に進む。
[第5実施形態]
次に、本発明の第5実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、上記第2乃至第4実施形態と比べると、領域特徴量の抽出方法が各次元(すなわち、各部分領域対)によって選択される点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、次元間で領域特徴量算出方法が異なる(領域特徴量算出方法に多様性がある)ことにより、次元間の相関をより小さくできる。したがって、上記実施形態の効果に加えて、異なる音響を識別できる度合いである識別能力をさらに高くすることができる。
《音響処理装置の機能構成》
図15は、本実施形態に係る音響処理装置1500の機能構成を示すブロック図である。
なお、図15において、第2実施形態の図3と同様の機能を有する機能構成部は、同じ符号を付してその詳しい説明を省略する。
図15における特徴的な構成は、領域特徴量の抽出方法を記憶する領域特徴量抽出方法記憶部1560を有する点である。
領域特徴量抽出方法記憶部1560は、各次元(各次元における部分領域対が、どのような形状でどの位置に第1部分領域と第2部分領域とを有するかは分かっているので)に対応して、領域特徴量抽出に適切な領域特徴量抽出方法を記憶している。
そして、領域特徴量抽出部1530は、領域特徴量抽出方法記憶部1560から各次元に対応して送られる領域特徴量抽出方法1560aにしたがって第1部分領域と第2部分領域との領域特徴量を抽出して、音響識別子生成部340に出力する。
(領域特徴量抽出部)
図16は、本実施形態に係る領域特徴量抽出部1530の構成を示すブロック図である。
図16において、第2実施形態の図5と同様の機能を果たす機能構成部には、同じ参照符号を付してその詳しい説明を省略する。
図16の領域特徴量抽出部1530には、領域特徴量抽出方法取得部1604が新たに追加されている
領域特徴量抽出方法取得部1604は、領域特徴量抽出方法記憶部1560から各次元に対応した領域特徴量抽出方法を取得して、その抽出方法にしたがって領域特徴量抽出を行なう領域特徴量抽出部503に領域特徴量算出方法情報を出力する。
(領域特徴量抽出方法記憶部)
図17は、本実施形態に係る領域特徴量抽出方法記憶部1560の構成を示す図である。
なお、本実施形態においては、領域特徴量抽出方法記憶部1560が各次元に対応する領域特徴量抽出方法の1セットを記憶する場合を説明するが、音響の種別や特徴に応じて複数の異なるセットを記憶しておき、入力する音響信号に応じて1セットを選択する構成であってもよい。
図17の領域特徴量抽出方法記憶部1560は、各次元1701に対応付けて、領域特徴量抽出方法を記憶している。各次元を表わす信号に対応して、領域特徴量抽出方法1702を読み出して、領域特徴量抽出部1530の領域特徴量抽出方法取得部1604に送る。
なお、次元の順序が固定であるならば、次元を表わす信号ではなく、領域特徴量抽出終了を報知して次の領域特徴量抽出方法を読み出す構成でもよい。
《音響処理装置の動作手順》
図18は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図15,図4,図7および図13の各機能構成部は、このフローチャートをCPU810により実行する。
なお、本実施形態を実行するためには、図8のRAM840に実行中の次元を記憶する領域とその次元の領域特徴量抽出情報を記憶する領域とが追加される。また、ストレージ850に領域特徴量抽出方法記憶部1560と領域特徴量抽出方法取得モジュールとが追加される。また、図18では、図9と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
図18おける特徴的なステップは、ステップS1801の追加である。ステップS1801において領域特徴量抽出部1530は、次元nに対応する領域特徴量算出方法あるいはそれを示す情報を、領域特徴量抽出方法記憶部1560から取得する。そして、ステップS1807において、ステップS1801で取得された領域特徴量抽出方法によって、領域特徴量抽出部1530は、第1領域特徴量と第2領域特徴量との抽出が行なわれる。なお、ステップS1801は、ステップS905の前にあってもよい。
[第6実施形態]
次に、本発明の第6実施形態に係る音響処理装置について説明する。
本実施形態に係る音響処理装置は、上記第2乃至第5実施形態と比べると、比較・量子化方法記憶部が各次元に対応する比較・量子化方法を記憶し、音響識別子生成部が各次元に対応する比較・量子化を行なう点で異なる。
その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、次元間で比較・量子化方法が異なる(比較・量子化方法に多様性がある)ことにより、次元間の相関をより小さくできる。したがって、第2実施形態の効果に加えて、異なる画像を識別できる度合いである識別能力をさらに高くすることができる。
《音響処理装置の機能構成》
図19は、本実施形態に係る音響処理装置1900の機能構成を示すブロック図である。
なお、図19において、第2実施形態の図3と同様の機能を有する機能構成部は、同じ符号を付してその詳しい説明を省略する。
図19における特徴的な構成は、比較・量子化方法を記憶する比較・量子化方法記憶部1970を有する点である。比較・量子化方法記憶部1970は、各次元(各次元における部分領域対が、どのような形状でどの位置に第1部分領域と第2部分領域とを有するかは分かっているので)に対応して、比較・量子化に適切な比較・量子化方法を記憶している。
そして、音響識別子生成部1940は、比較・量子化方法記憶部1970から各次元に対応して送られる比較・量子化方法1970aにしたがって比較・量子化を行ない、全次元の結果から音響識別子を生成する。
(音響識別子生成部)
図20は、本実施形態に係る音響識別子生成部1940の構成を示すブロック図である。
図20において、第2実施形態の図7と同様の機能を果たす機能構成部には、同じ参照符号を付してその詳しい説明を省略する。
図20の音響識別子生成部1940においては、比較・量子化方法取得部2004が新たに追加された。比較・量子化方法取得部2004は、比較・量子化方法記憶部1970から各次元に対応した比較・量子化方法を取得して、その比較・量子化方法にしたがって比較・量子化を行なう大小比較部701および量子化部702に比較・量子化方法情報を出力する。
(比較・量子化方法記憶部)
図21は、本実施形態に係る比較・量子化方法記憶部1970の構成を示す図である。
なお、本実施形態では、比較・量子化方法記憶部1970が各次元に対応する比較・量子化方法の1セットを記憶する場合を説明するが、音響の種別や特徴に応じて複数の異なるセットを記憶しておき、入力する音響信号に応じて1セットを選択する構成であってもよい。
図21の比較・量子化方法記憶部1970は、各次元2101に対応付けて比較・量子化方法2102を記憶している。各次元を表わす信号に対応して、比較・量子化方法2102を読み出して、音響識別子生成部1940の比較・量子化方法取得部2004に送る。なお、次元の順序が固定であるならば、次元を表わす信号ではなく、比較・量子化終了を報知して次の比較・量子化方法を読み出す構成でもよい。
図21において、比較・量子化方法Aは、大小比較の2値化である。比較・量子化方法Bは、“0”に量子化する同じ閾値の量子化境界を有する3値化である。比較・量子化方法Cは、4値以上の量子化である。比較・量子化方法Dは、領域特徴量がベクトル値である場合にスカラー量に変換して量子化を行なう方法である。比較・量子化方法Eは、領域特徴量がベクトル値である場合に重心ベクトルなどの代表ベクトルとの類似度が最も大きい(最短距離)なるように量子化する。比較・量子化方法Fは、全次元に対する割合が均等になるように量子化の境界を決定し、それに基づいて量子化を行う。比較・量子化方法Gは、すべての次元の差分値の絶対値を算出し、算出した差分値の絶対値をソートして、その上位または下位から、ある規定の割合の点を量子化境界(閾値)とする量子化である。比較・量子化方法Hは、比較・量子化方法Gのような規定の割合ではなく、+1、0、−1の量子化インデックスの割合が均等に近づくように、量子化境界(閾値)を決定する。
また、図21において、Mは量子化のレベル数、thは固定の量子化境界を決める閾値である。
《音響処理装置の動作手順》
図22は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図19,図4,図5および図19の各機能構成部は、このフローチャートをCPU810により実行する。
なお、本実施形態を実行するためには、図8のRAM840に実行中の次元を記憶する領域とその次元の比較・量子化方法情報を記憶する領域とが追加される。また、ストレージ850に比較・量子化方法記憶部1970と比較・量子化方法取得モジュールとが追加される。また、図22では、図9と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
図22における特徴的なステップは、ステップS2201の追加である。ステップS2201において、音響識別子生成部1940は、次元nに対応する比較・量子化方法あるいはそれを示す情報を、比較・量子化方法記憶部1970から取得する。そして、ステップS2209において、ステップS2201で取得された比較・量子化方法によって、音響識別子生成部1940は、比較・量子化を行うなお、ステップS2201は、ステップS905の前にあっても、ステップS907の後ろにあってもよい。
[第7実施形態]
次に、上記本発明の音響処理装置を適用した本発明の第7実施形態に係る音響処理システムについて説明する。
上記第2乃至第6実施形態と比べると、音響識別子生成方法記憶部が各次元に対応する音響識別子生成方法を記憶して、各次元に対応する音響識別子生成を行なう点で異なる。その他の構成および動作は、第2実施形態、第5実施形態および第6実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、次元間で音響識別子生成方法が異なる(音響識別子生成方法に多様性がある)ことにより、次元間の相関をより一層小さくできる。したがって、第2実施形態の効果に加えて、異なる画像を識別できる度合いである識別能力をより一層高くすることができる。
《音響処理装置の機能構成》
図23は、本実施形態に係る音響処理装置2300の機能構成を示すブロック図である。
なお、本実施形態において、第5実施形態の図15および第6実施形態の図19と同様の機能を果たす機能構成部には、同じ参照番号を付しその説明は省略する。
本実施形態は、音響識別子生成方法記憶部2380を有することが、上記実施形態とは異なっている。音響識別子生成方法記憶部2380には、次元に対応付けて、サンプリング方法、フレーム時間長/シフト時間、時間周波数解析方法、領域特徴量抽出方法、比較・量子化方法、が記憶されている。
なお、図23において次元が領域特徴量抽出部1530から出力されているのは、第2実施形態の図5に対応させたものである。次元決定部は領域特徴量抽出部以外の構成要素にあってもよいし、独立した構成要素として外部にあってもよい。
まず、音響識別子生成方法記憶部2380は、次元に対応してサンプリング方法を選択する。選択されたサンプリング方法2502によりサンプリングされて入力されたサンプル音響信号2301a〜2301cのいずれかは、次元に対応して、時間周波数解析部2310内から時間周波数解析方法2504に従って選択された、第1時間周波数解析部310、第2時間周波数解析部1010−1、第3時間周波数解析部1010−2で解析される。
また、次元に対応してフレーム時間長/シフト時間2503が変更されてもよい。なお、図23にはサンプリング方法および実感周波数解析方法を3つしか示していないが、その数は限定されない。
また、第1時間周波数解析部310、第2時間周波数解析部1010−1、第3時間周波数解析部1010−2は、上記実施形態の図4、図10A、図10Bに対応させているが、これに限定されるものではない。例えば、図10Cに図示した時間周波数解析部1010−3が使用されてもよい。
第1時間周波数解析部310、第2時間周波数解析部1010−1、第3時間周波数解析部1010−1は、それぞれ時間軸と周波数軸との平面上に位置付けられるパワースペクトラムからなる時間周波数データ310a、1010−1a、1010−2aを出力する。
時間および周波数が離散化されているそれぞれの時間周波数データは、時間順に時間軸上に並べられて時間周波数平面記憶部2320の、第1時間周波数平面2320−1、第2時間周波数平面2320−2、第3時間周波数平面2320−3、に配置される。
領域特徴量抽出部1530は、抽出領域記憶部350に記憶された2つの部分領域からなる部分領域対から、次元数にしたがって順次に部分領域対を示す次元別抽出領域情報350aを読み出す。
そして、次元に対応した時間周波数平面から部分領域対の各部分領域内のパワースペクトラム2320−1a、2320−2aまたは2320−3aを時間周波数平面記憶部2320から読み出す。
読み出した次元に対応した時間周波数平面から部分領域対の各部分領域内のパワースペクトラムに、次元に対応する領域特徴量抽出方法2505による演算を行ない、第1部分領域から第1領域特徴量1530aを抽出し、第2部分領域から第2領域特徴量1530bを抽出する。
音響識別子生成部1940は、次元に対応する比較・量子化方法2506に基づいて、第1領域特徴量1530aと第2領域特徴量1530bとの比較および3値の量子化を行ない、その結果を次元数(部分領域対の数に相当)結合することにより、音響識別子340aを生成する。
(時間周波数解析部)
図24は、本実施形態に係る時間周波数解析部2310の構成を示すブロック図である。
図24に示すように、本実施形態の時間周波数解析部2310の、第1時間周波数解析部310は、第2実施形態の図4に示したウェーブレット変換を使用して時間周波数平面を生成する。
第2時間周波数解析部1010−1は、図10Aに示したFFT1002,log1003,DCT1004を使用して時間周波数平面を生成する。
第3時間周波数解析部1010−2は、図10Bに示したDFT1006,log1007,サブバンド分割1008を使用して時間周波数平面を生成する。
それぞれの時間周波数解析部から出力された時間周波数データ310a、1010−1a、1010−2aを、時間周波数平面記憶部2320の第1時間周波数平面2320−1、第2時間周波数平面2320−2、第3時間周波数平面2320−3、に記憶する。
本実施形態の時間周波数解析部2310は、音響識別子生成方法記憶部2380からのフレーム時間長/シフト時間や時間周波数解析方法、および、領域特徴量抽出部1530からの次元に基づいて選択処理する。そして、次元に対応した時間周波数平面の第1部分領域と第2部分領域とのデータを領域特徴量抽出部1530に出力する。
(音響識別子生成方法記憶部)
図25は、本実施形態に係る音響識別子生成方法記憶部2380の構成を示す図である。
なお、図25の各欄に記載された方法などはその一例であって、この配置に限定されない。音響種別や内容、あるいは音響取得環境、さらには音響記憶媒体などに応じて適切な配置と次元数などが設定される。
図25の音響識別子生成方法記憶部2380は、次元2501に対応付けて、サンプリング方法2502、フレーム時間長/シフト時間2503、時間周波数解析方法2504、領域特徴量抽出方法2505、比較・量子化方法2506、が記憶される。
なお、本実施形態においては、各方法が選択されている例を示しているが、固定にする方法もあってよい。例えば、領域特徴量抽出方法2505を次元に対応して選択し他を固定とすれば第5実施形態に相当し、比較・量子化方法2506を次元に対応して選択し他を固定とすれば第6実施形態に相当する。
《音響処理装置の動作手順》
図26は、本実施形態に係る音響処理装置2300の動作手順を示すフローチャートである。
図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図23および図24の各機能構成部は、このフローチャートをCPU810により実行するなお、本実施形態を実行するためには、図8のRAM840に実行中の次元を記憶する領域とその次元の各方法情報を記憶する領域とが追加され、ストレージ850に音響識別子生成方法記憶部2380と音響特徴量抽出方法取得モジュールとが追加される。
また、図26では、図9、図18,図22と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
図26においては、最初のステップS903において、現在の次元を示すパラメータnが“1”に初期化される。ステップS2601において、音響処理装置2300は、次元nに対応して、音響識別子生成方法記憶部2380から、サンプリング方法2502、フレーム時間長/シフト時間2503、時間周波数解析方法2504、領域特徴量抽出方法2505、比較・量子化方法2506、を取得する。次に、ステップS2603において、時間周波数解析部2310は、次元nに対応してサンプリングして入力した音響信号に対して、次元nに対応した時間周波数解析をして、時間周波数平面を生成する。
以降の処理は、図9と図18と図22の処理を組み合わせた手順である。図26においては、各次元に対応して、サンプリング方法から比較・量子化方法までが選択されて実行され、それらが結合されて音響識別子が生成される。なお、次元に対応して、音響識別子内の配置位置や他の量子化データとの演算方法などが記憶されて、選択されてもよい。
[第8実施形態]
次に、上記本発明の音響処理装置を適用した本発明の第8実施形態に係る音響処理システムについて説明する。
本実施形態に係る音響処理システムは、上記本発明の音響処理装置を、ネットワークを介して送信されてくる音響信号に基づいて音響コンテンツを識別する音響識別システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、音響コンテンツの識別を少ない情報量で精度よく実施できる。
《音響処理システムの構成》
図27は、本実施形態に係る音響処理システム2700の構成を示すブロック図である。図27の音響処理システム2700は、本実施形態の音響処理装置を有する音響識別システム2710を有する。
音響識別システム2710は、ネットワーク2780を介して各種機器から音響信号を受信し、識別結果を各種機器へ送信する通信制御部2711を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。音響DB2712は、音響コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
音響識別装置2713は、本実施形態の音響処理装置が生成した音響識別子と音響DB2712に蓄積された音響識別子とを照合して、所定範囲で合致した音響識別子に対応する音響コンテンツを識別結果として通信制御部2711を介して報知する。
音響コンテンツを識別するために音響信号を送信する各種機器としては、ネットワーク2780を介して音響信号を音響識別システム2710に送信できるものであればよい。例えば、音楽配信サイト2720、音楽制作サイト2730、音声再生機2740、音声録音機2750、あるいは、視聴可能な携帯端末2760、ノート型のパーソナルコンピュータ(以下、パソコン)2770などでもよい。
[第9実施形態]
次に、上記本発明の音響処理装置を適用した本発明の第9実施形態に係る音響処理システムについて説明する。
本実施形態に係る音響処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて音響コンテンツを照合する音響照合システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
なお、本実施形態においては、照合結果から合致すれば違法性があるものとして報知する例を示すが、これに限定されない。音響照合の結果を利用するあらゆるシステムに適用可能である。
本実施形態によれば、音響コンテンツの照合を少ない情報量で精度よく実施できる。
《音響処理システムの構成》
図28は、本実施形態に係る音響処理システム2800の構成を示すブロック図である。
図28の音響処理システム2800は、本実施形態の音響処理装置を有する音響照合システム2810を有する。
音響照合システム2810は、ネットワーク2780を介して各種機器から音響信号を受信し、照合結果あるいは違法性判定結果を各種機器へ送信する通信制御部2711を有する。
受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。音響DB2712は、音響コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
音響照合装置2813は、本実施形態の音響処理装置が生成した音響識別子と音響DB2712に蓄積された音響識別子とを照合して、所定範囲で合致した音響コンテンツがあれば、違法性報知部2814に通知する。違法性報知部2814は、通信制御部2711を介して、入力した音響信号が違法コンテンツのものであることを報知する。
音響コンテンツを照合するために音響信号を送信する各種機器としては図27の機器と同様に、ネットワーク2780を介して音響信号を音響照合システム2810に送信できるものであればよい。
[第10実施形態]
次に、上記本発明の音響処理装置を適用した本発明の第10実施形態に係るビデオ処理システムについて説明する。
本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて映像コンテンツを識別するビデオ識別システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、映像コンテンツの識別を少ない情報量で精度よく実施できる。
《ビデオ処理システムの構成》
図29は、本実施形態に係るビデオ処理システム2900の構成を示すブロック図である。
図29のビデオ処理システム2900は、本実施形態の音響処理装置を有するビデオ識別システム2910を有する。
ビデオ識別システム2910は、ネットワーク2980を介してビデオ信号に含まれる音響信号を各種機器から受信し、識別結果を各種機器へ送信する通信制御部2911を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。ビデオDB2912は、映像コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
ビデオ識別装置2913は、本実施形態の音響処理装置が生成した音響識別子とビデオDB2912に蓄積された音響識別子とを照合して、所定範囲で合致した音響識別子に対応するビデオコンテンツを識別結果として通信制御部2911を介して報知する。
映像コンテンツを識別するために音響信号を送信する各種機器としては、ネットワーク2980を介して音響信号をビデオ識別システム2910に送信できるものであればよい。例えば、ビデオ配信サイト2920、ビデオ制作サイト2930、ビデオ再生機2940、ビデオ録画機2950、あるいは、視聴可能な携帯端末2960、ノート型のパソコン2970などでもよい。
[第11実施形態]
次に、上記本発明の音響処理装置を適用した本発明の第11実施形態に係るビデオ処理システムについて説明する。
本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて映像コンテンツを照合するビデオ照合システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、映像コンテンツの照合を少ない情報量で精度よく実施できる。
《ビデオ処理システムの構成》
図30は、本実施形態に係るビデオ処理システム3000の構成を示すブロック図である。
図30のビデオ処理システム3000は、本実施形態の音響処理装置を有するビデオ照合システム3010を有する。
ビデオ照合システム3010は、ネットワーク2980を介して音響信号を受信し、識別結果を送信する通信制御部2911を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。
ビデオDB2912は、映像コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
ビデオ照合装置3013は、本実施形態の音響処理装置が生成した音響識別子とビデオDB2912に蓄積された音響識別子とを照合して、所定範囲で合致したビデオコンテンツが有る場合に、違法性報知部3014に通知する。違法性報知部3014は、通信制御部2911を介して、受信した音響信号の映像コンテンツに違法性があることを報知する。
ネットワーク2980を介して、映像コンテンツを照合するために音響信号を送信する、図29と同様の機器が接続されている。なお、接続される機器は、ネットワークを介して音響信号をビデオ照合システム3010に送信できるものであれば問わない。
[第12実施形態]
次に、上記本発明の音響処理装置を適用した本発明の第12実施形態に係るビデオ処理システムについて説明する。
本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号等に基づいて映像コンテンツを照合するビデオ照合システムに適用したものである。本実施形態のビデオ照合システムにおいては、音響識別子と映像識別子との両方を映像コンテンツの照合に使用する。
なお、違法性の判定は、音響識別子および映像識別子の両方で合致した場合を条件としても、音響識別子または映像識別子のいずれかで合致した場合を条件としてもよい。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
本実施形態によれば、映像コンテンツの照合を少ない情報量でより精度よく実施できる。
《音響処理システムの構成》
図31は、本実施形態に係るビデオ処理システム3100の構成を示すブロック図である。
図31のビデオ処理システム3100は、本実施形態の音響処理装置を有するビデオ照合システム3110を有する。
ビデオ照合システム3110は、ネットワーク3180を介して各種機器から音響信号および映像識別子を受信し、照合結果を各種機器へ送信する通信制御部3111を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。
ビデオDB3112は、映像コンテンツまたはそのIDに対応付けて予め生成された音響識別子と映像識別子とを蓄積している。なお、映像識別子は、映像のフレームから本実施形態と同様の部分領域対の差分(輝度の)から生成した映像識別子(いわゆる、フレーム特徴量)を使用しても、他の公知の映像識別子を使用してもよい。
ビデオ照合装置3113は、本実施形態の音響処理装置が生成した音響識別子とビデオDB3112に蓄積された音響識別子とを照合すると共に、通信制御部3111が受信した映像識別子とビデオDB3112に蓄積された映像識別子とを照合する。
所定範囲で両方にあるいは一方に合致したビデオコンテンツが有る場合に、違法性報知部2714に通知する。違法性報知部3114は、通信制御部3111を介して、受信した音響信号と映像識別子の映像コンテンツに違法性があることを報知する。
ネットワーク3180を介して、映像コンテンツを照合するために音響信号と映像識別子を送信する、図29と同様の機器が接続されている。なお、接続される機器は、ネットワークを介して音響信号および映像識別子をビデオ照合システム3110に送信できるものであれば問わない。
また、本実施形態においては、これら機器が音響処理装置と同期してビデオ信号に含まれる映像信号から映像識別子を生成する映像処理装置を備える構成を考えている。しかしながら、ネットワーク3180による通信容量が十分であれば、ビデオ照合システム3110に映像処理装置を配置してもよい。
[他の実施形態]
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。
したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年7月14日に出願された日本出願特願2011−155541を基礎出願とする優先権を主張し、その開示の全てをここに取り込む。

Claims (28)

  1. 音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析手段と、
    前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出手段と、
    前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成手段と、
    を備える、音響処理装置。
  2. 前記位置の相違は、
    相対的位置関係の相違と絶対位置の相違と
    を含む、請求項1に記載の音響処理装置。
  3. 前記領域特徴量抽出手段は、
    各部分領域におけるパワースペクトラムの代表値または平均値のいずれかを当該部分領域の領域特徴量とする請求項1または2に記載の音響処理装置。
  4. 前記音響識別子生成手段は、
    前記部分領域対に含まれる2つの部分領域から抽出された領域特徴量を用いて音響識別子要素を生成する要素生成手段を有し、該要素生成手段が生成した音響識別子要素を前記複数の部分領域対の数だけ集めた集合を前記音響識別子とする、
    請求項1乃至3のいずれか1項に記載の音響処理装置。
  5. 前記要素生成手段は、
    前記領域特徴量抽出手段で抽出された領域特徴量の差分値を量子化し、前記音響識別子要素を生成する、
    請求項4に記載の音響処理装置。
  6. 前記量子化は、
    所定の量子化境界による3値の量子化である、
    請求項5に記載の音響処理装置。
  7. 前記要素生成手段は、
    前記領域特徴量抽出手段で抽出された領域特徴量の差分値が、プラスの量子化境界とマイナスの量子化境界との間であれば第1量子化値を生成し、プラスの量子化境界より大きければ第2量子化値を生成し、マイナスの量子化境界より小さければ第3量子化値を生成する、請求項6に記載の音響処理装置。
  8. 前記要素生成手段は、
    前記第1量子化値、前記第2量子化値および前記第3量子化値となる前記部分領域対の割合が均等になるように、前記量子化境界を決定する第2量子化境界決定手段を有する、
    請求項7に記載の音響処理装置。
  9. 前記要素生成手段は、
    前記領域特徴量抽出手段抽出された領域特徴量の差分値の分布に基づいて、前記量子化境界を決定する第1量子化境界決定手段を有する、
    請求項6乃至8のいずれか1項に記載の音響処理装置。
  10. 前記要素生成手段は、
    前記領域特徴量抽出手段で抽出された領域特徴量の差分値の絶対値をソートし、上位または下位から規定の割合の位置にある値を前記量子化境界として決定する第3量子化境界決定手段を有する、
    請求項6乃至8のいずれか1項に記載の音響処理装置。
  11. 前記時間周波数解析手段は、
    音響信号をサンプリングするサンプリング手段と、
    前記サンプリングした音響信号から、順次にシフトして互いにオーバーラップした所定時間長の複数のフレームを切り出すフレーム切出手段と、
    前記切り出された複数のフレームの各フレームに対して時間および周波数が離散化された変換を行ない、前記時間周波数平面を生成する平面生成手段と、
    を有する、請求項1乃至10のいずれか1項に記載の音響処理装置。
  12. 前記平面生成手段における時間および周波数が離散化された変換は、
    FFT(Fast Fourier Transform),DFT(Discrete Fourier Transform),DCT(Discrete Cosine Transform),MCLT(Modulated Complex Transform),Haar Transform,Walsh−Hadamard Transform,Wavelet Transformの少なくとも1つを含む、請求項11に記載の音響処理装置。
  13. 前記領域特徴量抽出手段は、前記部分領域対に対応付けて領域特徴量抽出方法を記憶する第1記憶手段を有し、前記部分領域対に対応する領域特徴量抽出方法で領域特徴量を抽出する、請求項1乃至12のいずれか1項に記載の音響処理装置。
  14. 前記音響識別子生成手段は、前記部分領域対に対応付けて比較および量子化方法を記憶する第2記憶手段を有し、前記部分領域対に対応する比較および量子化方法で比較および量子化を行ない、音響識別子を生成する、請求項1乃至13のいずれか1項に記載の音響処理装置。
  15. 前記時間周波数解析手段は、音響信号から異なる時間周波数解析をして複数の時間周波数平面を生成し、
    前記領域特徴量抽出手段は、前記時間周波数解析手段により生成された前記複数の時間周波数平面の上に設定された、前記時間周波数平面と2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する、請求項1乃至14のいずれか1項に記載の音響処理装置。
  16. 前記時間周波数解析手段は、さらに、異なるサンプリングをした音響信号から時間周波数解析をして複数の時間周波数平面を生成する、請求項15に記載の音響処理装置。
  17. 請求項1乃至16のいずれか1項に記載の音響処理装置と、
    前記音響処理装置により生成された前記音響識別子を用いて音響の照合を行なう音響照合装置と、
    を含む、音響処理システム。
  18. 請求項1乃至16のいずれか1項に記載の音響処理装置と、
    前記音響処理装置により生成された前記音響識別子を用いて音響の識別を行なう音響識別装置と、
    を含む音響処理システム。
  19. ビデオ信号に含まれる音響信号から音響識別子を生成する請求項1乃至16のいずれか1項に記載の音響処理装置と、
    前記音響処理装置により生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合装置と、
    を含む、ビデオ処理システム。
  20. ビデオ信号に含まれる音響信号から音響識別子を生成する請求項1乃至16のいずれか1項に記載の音響処理装置と、
    前記音響処理装置により生成された前記音響識別子を用いてビデオの識別を行なうビデオ識別装置と、
    を含む、ビデオ処理システム。
  21. ビデオ信号に含まれる音響信号から音響識別子を生成する請求項1乃至16のいずれか1項に記載の音響処理装置と、
    前記音響処理装置と同期して前記ビデオ信号に含まれる映像信号から映像識別子を生成する映像処理装置と、
    前記映像処理装置により生成された前記映像識別子と前記音響処理装置により生成された前記音響識別子とを用いてビデオの照合を行なうビデオ照合装置と、
    を含む、ビデオ処理システム。
  22. 音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    を含む、音響処理装置の制御方法。
  23. 音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    をコンピュータに実行させる、音響処理装置の制御プログラム。
  24. 音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の照合を行なう音響照合ステップと、を含む音響処理方法であって、
    前記音響処理ステップが、
    音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    を含む、音響処理方法。
  25. 音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の識別を行なう音響識別ステップと、を含む音響処理方法であって、
    前記音響処理ステップが、
    音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    を含む、音響処理方法。
  26. ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、
    前記音響処理ステップが、
    音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    前記生成された前記時間周波数平面の上に設定され2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    を含む、ビデオ処理方法。
  27. ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、
    前記生成された前記音響識別子を用いてビデオの識別を行なうビデオ識別ステップと、を含むビデオ処理方法であって、
    前記音響処理ステップが、
    音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    を含む、ビデオ処理方法。
  28. ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、
    前記音響処理ステップに同期して前記ビデオ信号に含まれる映像信号から映像識別子を生成する映像処理ステップと、
    前記生成された前記映像識別子と前記生成された前記音響識別子とを用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、
    前記音響処理ステップが、
    音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
    前記生成された前記時間周波数平面の上に設定された、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
    前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
    を含む、ビデオ処理方法。
JP2013524017A 2011-07-14 2012-07-13 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム Expired - Fee Related JP5772957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013524017A JP5772957B2 (ja) 2011-07-14 2012-07-13 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011155541 2011-07-14
JP2011155541 2011-07-14
PCT/JP2012/068535 WO2013008956A1 (ja) 2011-07-14 2012-07-13 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム
JP2013524017A JP5772957B2 (ja) 2011-07-14 2012-07-13 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2013008956A1 true JPWO2013008956A1 (ja) 2015-02-23
JP5772957B2 JP5772957B2 (ja) 2015-09-02

Family

ID=47506227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013524017A Expired - Fee Related JP5772957B2 (ja) 2011-07-14 2012-07-13 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム

Country Status (3)

Country Link
US (1) US9215350B2 (ja)
JP (1) JP5772957B2 (ja)
WO (1) WO2013008956A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714811B (zh) * 2013-12-29 2016-09-14 广州视声智能科技有限公司 一种语音控制物业系统方法及装置
CN110322886A (zh) 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN116502047B (zh) * 2023-05-23 2024-05-07 成都市第四人民医院 神经医学数据处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116768A (ja) * 2000-10-05 2002-04-19 Sony Corp 携帯電話端末、楽曲同定方法及び装置、楽曲同定配信方法及びシステム
JP2008145505A (ja) * 2006-12-06 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 信号箇所・変動パラメータ検出方法、信号箇所・変動パラメータ検出装置ならびにそのプログラムと記録媒体
JP2009036862A (ja) * 2007-07-31 2009-02-19 Univ Chuo 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2009276776A (ja) * 2009-08-17 2009-11-26 Sony Corp 楽曲同定装置及び方法、楽曲同定配信装置及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP3699912B2 (ja) 2001-07-26 2005-09-28 株式会社東芝 音声特徴量抽出方法と装置及びプログラム
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
KR101355258B1 (ko) * 2009-06-16 2014-01-27 닛본 덴끼 가부시끼가이샤 이미지 시그니처 매칭 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116768A (ja) * 2000-10-05 2002-04-19 Sony Corp 携帯電話端末、楽曲同定方法及び装置、楽曲同定配信方法及びシステム
JP2008145505A (ja) * 2006-12-06 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 信号箇所・変動パラメータ検出方法、信号箇所・変動パラメータ検出装置ならびにそのプログラムと記録媒体
JP2009036862A (ja) * 2007-07-31 2009-02-19 Univ Chuo 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2009276776A (ja) * 2009-08-17 2009-11-26 Sony Corp 楽曲同定装置及び方法、楽曲同定配信装置及び方法

Also Published As

Publication number Publication date
JP5772957B2 (ja) 2015-09-02
WO2013008956A1 (ja) 2013-01-17
US9215350B2 (en) 2015-12-15
US20140139739A1 (en) 2014-05-22

Similar Documents

Publication Publication Date Title
Rakotomamonjy et al. Histogram of gradients of time–frequency representations for audio scene classification
US9313593B2 (en) Ranking representative segments in media data
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
EP1763018B1 (en) System for detection section including particular acoustic signal, method and program thereof
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Ntalampiras et al. Automatic recognition of urban soundscenes
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
Kim et al. Robust audio fingerprinting using peak-pair-based hash of non-repeating foreground audio in a real environment
EP4102500A1 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Williams et al. Efficient music identification using ORB descriptors of the spectrogram image
Malekesmaeili et al. A novel local audio fingerprinting algorithm
Felipe et al. Acoustic scene classification using spectrograms
Jleed et al. Acoustic environment classification using discrete hartley transform features
Xie et al. Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
Suhaimy et al. Classification of ambulance siren sound with MFCC-SVM
Yang Towards real-time music auto-tagging using sparse features
Agarwaal et al. Robust and lightweight audio fingerprint for Automatic Content Recognition
Zhang et al. A two phase method for general audio segmentation
Thiruvengatanadhan Music genre classification using mfcc and aann

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R150 Certificate of patent or registration of utility model

Ref document number: 5772957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees