JPWO2016167216A1

JPWO2016167216A1 - マッチング装置、判定装置、これらの方法、プログラム及び記録媒体

Info

Publication number: JPWO2016167216A1
Application number: JP2017512524A
Authority: JP
Inventors: 守谷　健弘; 健弘守谷; 川西　隆仁; 隆仁川西; 優鎌本; 登原田; 弘和亀岡; 亮介杉浦
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2015-04-13
Filing date: 2016-04-11
Publication date: 2018-02-08
Anticipated expiration: 2036-04-11
Also published as: CN107851442A; US20180090155A1; JP6392450B2; WO2016167216A1; US10147443B2; CN107851442B

Abstract

マッチング装置は、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第一系列と、第二信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第二系列とに基づいて、第一信号と第二信号との一致度合い、及び／又は、第一信号と第二信号とが一致しているかどうかを判定するマッチング部５１を備えている。

Description

この発明は、音信号に基づいてマッチング又は信号の区間若しくは種類の判定を行う技術に関する。

音信号等の時系列信号の特徴を表すパラメータとして、ＬＳＰ等のパラメータが知られている（例えば、非特許文献１参照）。

ＬＳＰは、複数次なので直接的に音の分類や区間推定に使うのは扱いが難しい場合がある。例えば、ＬＳＰは複数次であるため、ＬＳＰを用いた閾値に基づく処理は容易とは言えない。

ところで、公知とはなっていないが、発明者によりパラメータηが提案されている。このパラメータηは、例えば3GPP EVS（Enhanced Voice Services）規格で使われているような線形予測包絡を利用する周波数領域の係数の量子化値を算術符号化する符号化方式において、算術符号の符号化対象の属する確率分布を定める形状パラメータである。パラメータηは、符号化対象の分布と関連性を有しており、パラメータηを適宜定めると効率の良い符号化及び復号を行うことが可能である。

また、パラメータηは、時系列信号の特徴を表す指標と成り得る。このため、パラメータηは、上記符号化処理以外の技術、例えばマッチング技術や信号の区間又は種類の判定技術等の音声音響関連技術に用いることができる。

さらに、パラメータηは１次の値であるため、パラメータηを用いた閾値に基づく処理はＬＳＰを用いた閾値に基づく処理と比較すると容易である。このため、パラメータηは、マッチング技術や信号の区間又は種類の判定技術等の音声音響関連技術に容易に用いることができる。

守谷健弘，「高圧縮音声符号化の必須技術：線スペクトル対（LSP）」，NTT技術ジャーナル，２０１４年９月，Ｐ．５８−６０

しかしながら、パラメータηを用いたマッチング技術及び信号の区間又は種類の判定技術は知られていなかった。

本発明は、パラメータηを用いてマッチングを行うマッチング装置、パラメータηを用いて信号の区間又は種類の判定を行う判定装置、これらの方法、プログラム及び記録媒体を提供することを目的とする。

本発明の一態様によるマッチング装置によれば、パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとして、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第一系列と、第二信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第二系列とに基づいて、第一信号と第二信号との一致度合い、及び／又は、第一信号と第二信号とが一致しているかどうかを判定するマッチング部、を備えている。

本発明の一態様による判定装置によれば、パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとし、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列を第一系列として、第一系列に基づいて、第一信号の中の所定の種類の信号の区間、及び／又は、第一信号の種類を判定する判定部を備えている。

パラメータηを用いてマッチング又は信号の区間若しくは種類の判定を行うことができる。

マッチング装置の例を説明するためのブロック図。マッチング方法の例を説明するためのフローチャート。判定装置の例を説明するためのブロック図。判定方法の例を説明するためのフローチャート。パラメータ決定部の例を説明するためのブロック図。パラメータ決定部の例を説明するためのフローチャート。一般化ガウス分布を説明するための図。

［マッチング装置及び方法］
マッチング装置及び方法の一例について説明する。

マッチング装置は、図１に示すように、パラメータ決定部２７’、マッチング部５１及び第二系列記憶部５２を例えば備えている。マッチング装置の各部が、図２に例示する各処理を行うことによりマッチング方法が実現される。

以下、マッチング装置の各部について説明する。

＜パラメータ決定部２７’＞
パラメータ決定部２７’には、時系列信号である第一信号が所定の時間長のごとに入力される。第一信号の例は、音声ディジタル信号又は音響ディジタル信号等の音信号である。

パラメータ決定部２７’は、入力された所定の時間長の時系列信号に基づいて、後述する処理により、その入力された所定の時間長の時系列信号パラメータηを決定する（ステップＦ１）。これにより、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列を得る。この第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列のことを「第一系列」と呼ぶことにする。このように、パラメータ決定部２７’は、所定の時間長のフレームごとに処理を行う。

なお、第一信号を構成する少なくとも１つの所定の時間長の時系列信号は、第一信号を構成する所定の時間長の時系列信号の全部であってもよいし、一部であってもよい。

パラメータ決定部２７’により決定されたパラメータηの第一系列は、マッチング部５１に出力される。

パラメータ決定部２７’の構成例を図５に示す。パラメータ決定部２７’は、図５に示すように、周波数領域変換部４１と、スペクトル包絡推定部４２と、白色化スペクトル系列生成部４３と、パラメータ取得部４４とを例えば備えている。スペクトル包絡推定部４２は、線形予測分析部４２１及び非平滑化振幅スペクトル包絡系列生成部４２２を例えば備えている。例えばこのパラメータ決定部２７’により実現されるパラメータ決定方法の各処理の例を図６に示す。

以下、図５の各部について説明する。

＜周波数領域変換部４１＞
周波数領域変換部４１には、所定の時間長の時系列信号が入力される。

周波数領域変換部４１は、所定の時間長のフレーム単位で、入力された所定の時間長の時系列信号である時間領域の音信号を周波数領域のN点のMDCT係数列X(0),X(1),…,X(N-1)に変換する。Nは正の整数である。

得られたMDCT係数列X(0),X(1),…,X(N-1)は、スペクトル包絡推定部４２及び白色化スペクトル系列生成部４３に出力される。

特に断りがない限り、以降の処理はフレーム単位で行われるものとする。

このようにして、周波数領域変換部４１は、所定の時間長の時系列信号に対応する、例えばMDCT係数列である周波数領域サンプル列を求める（ステップＣ４１）。

＜スペクトル包絡推定部４２＞
スペクトル包絡推定部４２には、周波数領域変換部２１が得たMDCT係数列X(0),X(1),…,X(N-1)が入力される。

スペクトル包絡推定部４２は、所定の方法で定められるパラメータη₀に基づいて、時系列信号に対応する周波数領域サンプル列の絶対値のη₀乗をパワースペクトルとして用いたスペクトル包絡の推定を行う（ステップＣ４２）。

推定されたスペクトル包絡は、白色化スペクトル系列生成部４３に出力される。

スペクトル包絡推定部４２は、例えば以下に説明する線形予測分析部４２１及び非平滑化振幅スペクトル包絡系列生成部４２２の処理により、非平滑化振幅スペクトル包絡系列を生成することによりスペクトル包絡の推定を行う。

パラメータη₀は所定の方法で定められるとする。例えば、η₀を０より大きい所定の数とする。例えば、η₀＝１とする。また、現在パラメータηを求めようとしているフレームよりも前のフレームで求まったηを用いてもよい。現在パラメータηを求めようとしているフレーム（以下、現フレームとする。）よりも前のフレームとは、例えば現フレームのよりも前のフレームであって現フレームの近傍のフレームである。現フレームの近傍のフレームは、例えば現フレームの直前のフレームである。

＜線形予測分析部４２１＞
線形予測分析部４２１には、周波数領域変換部４１が得たMDCT係数列X(0),X(1),…,X(N-1)が入力される。

線形予測分析部４２１は、MDCT係数列X(0),X(1),…,X(N-1)を用いて、以下の式（C1)により定義される~R(0),~R(1),…,~R(N-1)を線形予測分析して線形予測係数β₁,β₂,…,β_pを生成し、生成された線形予測係数β₁,β₂,…,β_pを符号化して線形予測係数符号と線形予測係数符号に対応する量子化された線形予測係数である量子化線形予測係数^β₁,^β₂,…,^β_pとを生成する。

生成された量子化線形予測係数^β₁,^β₂,…,^β_pは、非平滑化スペクトル包絡系列生成部４２２に出力される。

具体的には、線形予測分析部４２１は、まずMDCT係数列X(0),X(1),…,X(N-1)の絶対値のη₀乗をパワースペクトルと見做した逆フーリエ変換に相当する演算、すなわち式(C1)の演算を行うことにより、MDCT係数列X(0),X(1),…,X(N-1)の絶対値のη₀乗に対応する時間領域の信号列である擬似相関関数信号列~R(0),~R(1),…,~R(N-1)を求める。そして、線形予測分析部４２１は、求まった擬似相関関数信号列~R(0),~R(1),…,~R(N-1)を用いて線形予測分析を行って、線形予測係数β₁,β₂,…,β_pを生成する。そして、線形予測分析部４２１は、生成された線形予測係数β₁,β₂,…,β_pを符号化することにより、線形予測係数符号と、線形予測係数符号に対応する量子化線形予測係数^β₁,^β₂,…,^β_pとを得る。

線形予測係数β₁,β₂,…,β_pは、MDCT係数列X(0),X(1),…,X(N-1)の絶対値のη₀乗をパワースペクトルと見做したときの時間領域の信号に対応する線形予測係数である。

線形予測分析部４２１による線形予測係数符号の生成は、例えば従来的な符号化技術によって行われる。従来的な符号化技術とは、例えば、線形予測係数そのものに対応する符号を線形予測係数符号とする符号化技術、線形予測係数をLSPパラメータに変換してLSPパラメータに対応する符号を線形予測係数符号とする符号化技術、線形予測係数をPARCOR係数に変換してPARCOR係数に対応する符号を線形予測係数符号とする符号化技術などである。

このようにして、線形予測分析部４２１は、例えばMDCT係数列である周波数領域サンプル列の絶対値のη₀乗をパワースペクトルと見做した逆フーリエ変換を行うことにより得られる疑似相関関数信号列を用いて線形予測分析を行い線形予測係数を生成する（ステップＣ４２１）。

＜非平滑化振幅スペクトル包絡系列生成部４２２＞
非平滑化振幅スペクトル包絡系列生成部４２２には、線形予測分析部４２１が生成した量子化線形予測係数^β₁,^β₂,…,^β_pが入力される。

非平滑化振幅スペクトル包絡系列生成部４２２は、量子化線形予測係数^β₁,^β₂,…,^β_pに対応する振幅スペクトル包絡の系列である非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)を生成する。

生成された非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)は、白色化スペクトル系列生成部４３に出力される。

非平滑化振幅スペクトル包絡系列生成部４２２は、量子化線形予測係数^β₁,^β₂,…,^β_pを用いて、非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)として、式(C2)により定義される非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)を生成する。

このようにして、非平滑化振幅スペクトル包絡系列生成部４２２は、疑似相関関数信号列に対応する振幅スペクトル包絡の系列を１／η₀乗した系列である非平滑化スペクトル包絡系列を線形予測分析部４２１により生成された線形予測係数に変換可能な係数に基づいて得ることによりスペクトル包絡の推定を行う（ステップＣ４２２）。

なお、非平滑化スペクトル包絡系列生成部４２２は、量子化線形予測係数^β₁,^β₂,…,^β_pに代えて線形予測分析部４２１が生成した線形予測係数β₁,β₂,…,β_pを用いることにより、非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)を得てもよい。この場合は、線形予測分析部４２１は、量子化線形予測係数^β₁,^β₂,…,^β_pを得る処理をしなくてもよい。

＜白色化スペクトル系列生成部４３＞
白色化スペクトル系列生成部４３には、周波数領域変換部４１が得たMDCT係数列X(0),X(1),…,X(N-1)及び非平滑化振幅スペクトル包絡生成部４２２が生成した非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)が入力される。

白色化スペクトル系列生成部４３は、MDCT係数列X(0),X(1),…,X(N-1)の各係数を、対応する非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)の各値で除算することにより、白色化スペクトル系列X_W(0),X_W(1),…,X_W(N-1)を生成する。

生成された白色化スペクトル系列X_W(0),X_W(1),…,X_W(N-1)は、パラメータ取得部４４に出力される。

白色化スペクトル系列生成部４３は、例えば、k=0,1,…,N-1として、MDCT係数列X(0),X(1),…,X(N-1)の各係数X(k)を非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)の各値^H(k)で除算することにより、白色化スペクトル系列X_W(0),X_W(1),…,X_W(N-1)の各値X_W(k)を生成する。すなわち、k=0,1,…,N-1として、X_W(k)=X(k)/^H(k)である。

このようにして、白色化スペクトル系列生成部４３は、例えば非平滑化振幅スペクトル包絡系列であるスペクトル包絡で例えばMDCT係数列である周波数領域サンプル列を除算した系列である白色化スペクトル系列を得る（ステップＣ４３）。

＜パラメータ取得部４４＞
パラメータ取得部４４には、白色化スペクトル系列生成部４３が生成した白色化スペクトル系列X_W(0),X_W(1),…,X_W(N-1)が入力される。

パラメータ取得部４４は、パラメータηを形状パラメータとする一般化ガウス分布が白色化スペクトル系列X_W(0),X_W(1),…,X_W(N-1)のヒストグラムを近似するパラメータηを求める（ステップＣ４４）。言い換えれば、パラメータ取得部４４は、パラメータηを形状パラメータとする一般化ガウス分布が白色化スペクトル系列X_W(0),X_W(1),…,X_W(N-1)のヒストグラムの分布に近くなるようなパラメータηを決定する。

パラメータηを形状パラメータとする一般化ガウス分布は、例えば以下のように定義される。Γは、ガンマ関数である。

一般化ガウス分布は、形状パラメータであるηを変えることにより、図３のようにη＝１の時はラプラス分布、η＝２の時はガウス分布、といったように様々な分布を表現することができるものである。ηは、０より大きい所定の数である。ηは、０より大きい２以外の所定の数であってもよい。具体的には、ηは、２未満の所定の正の数であってよい。φは分散に対応するパラメータである。

ここで、パラメータ取得部４４が求めるηは、例えば以下の式(C3)により定義される。F^-1は、関数Fの逆関数である。この式は、いわゆるモーメント法により導出されるものである。

逆関数F^-1が定式化されている場合には、パラメータ取得部４４は、定式化された逆関数F^-1にm₁/((m₂)^1/2)の値を入力したときの出力値を計算することによりパラメータηを求めることができる。

逆関数F^-1が定式化されていない場合には、パラメータ取得部４４は、式(C3)で定義されるηの値を計算するために、例えば以下に説明する第一方法又は第二方法によりパラメータηを求めてもよい。

パラメータηを求めるための第一方法について説明する。第一の方法では、パラメータ取得部４４は、白色化スペクトル系列に基づいてm₁/((m₂)^1/2)を計算し、予め用意しておいた異なる複数の、ηと対応するＦ（η）のペアを参照して、計算されたm₁/((m₂)^1/2)に最も近いＦ（η）に対応するηを取得する。

予め用意しておいた異なる複数の、ηと対応するＦ（η）のペアは、パラメータ取得部４４の記憶部４４１に予め記憶しておく。パラメータ取得部４４は、記憶部４４１参照して、計算されたm₁/((m₂)^1/2)に最も近いＦ（η）を見つけ、見つかったＦ（η）に対応するηを記憶部４４１から読み込み出力する。

計算されたm₁/((m₂)^1/2)に最も近いＦ（η）とは、計算されたm₁/((m₂)^1/2)との差の絶対値が最も小さくなるＦ（η）のことである。

パラメータηを求めるための第二方法について説明する。第二の方法では、逆関数F^-1の近似曲線関数を例えば以下の式(C3’)で表される~F^-1として、パラメータ取得部４４は、白色化スペクトル系列に基づいてm₁/((m₂)^1/2)を計算し、近似曲線関数~F^-1に計算されたm₁/((m₂)^1/2)を入力したときの出力値を計算することによりηを求める。この近似曲線関数~F^-1は使用する定義域において出力が正値となる単調増加関数であればよい。

なお、パラメータ取得部４４が求めるηは、式(C3)ではなく、式(C3'')のように予め定めた正の整数q1及びq2を用いて（ただしq1<q2）式(C3)を一般化した式により定義されてもよい。

なお、ηが式(C3'')により定義される場合も、ηが式(C3)により定義されている場合と同様の方法により、ηを求めることができる。すなわち、パラメータ取得部４４が、白色化スペクトル系列に基づいてそのq1次モーメントであるm_q1とそのq2次モーメントであるm_q2とに基づく値m_q1/((m_q2)^q1/q2)を計算した後、例えば上記の第一及び第二の方法と同様、予め用意しておいた異なる複数の、ηと対応するＦ’（η）のペアを参照して、計算されたm_q1/((m_q2)^q1/q2)に最も近いＦ’（η）に対応するηを取得するか、逆関数F’^-1の近似曲線関数を~F’^-1として、近似曲線関数~F^-1に計算されたm_q1/((m_q2)^q1/q2)を入力したときの出力値を計算してηを求めることができる。

このようにηは次元が異なる２つの異なるモーメントm_q1,m_q2に基づく値であるとも言える。例えば、次元が異なる２つの異なるモーメントm_q1,m_q2のうち、次元が低い方のモーメントの値又はこれに基づく値（以下、前者とする。）と次元が高い方のモーメントの値又はこれに基づく値（以下、後者とする）との比の値、この比の値に基づく値、又は、前者を後者で割って得られる値に基づき、ηを求めてもよい。モーメントに基づく値とは、例えば、そのモーメントをmとしQを所定の実数としてm^Qのことである。また、これらの値を近似曲線関数~F^-1に入力してηを求めてもよい。この近似曲線関数~F’^-1は上記同様、使用する定義域において出力が正値となる単調増加関数であればよい。

パラメータ決定部２７’は、ループ処理によりパラメータηを求めてもよい。すなわち、パラメータ決定部２７’は、パラメータ取得部４４で求まるパラメータηを所定の方法で定められるパラメータη₀とする、スペクトル包絡推定部４２、白色化スペクトル系列生成部４３及びパラメータ取得部４４の処理を更に１回以上行ってもよい。

この場合、例えば、図５で破線で示すように、パラメータ取得部４４で求まったパラメータηは、スペクトル包絡推定部４２に出力される。スペクトル包絡推定部４２は、パラメータ取得部４４で求まったηをパラメータη₀として用いて、上記説明した処理と同様の処理を行いスペクトル包絡の推定を行う。白色化スペクトル系列生成部４３は、新たに推定されたスペクトル包絡に基づいて、上記説明した処理と同様の処理を行い白色化スペクトル系列を生成する。パラメータ取得部４４は、新たに生成された白色化スペクトル系列に基づいて、上記説明した処理と同様の処理を行いパラメータηを求める。

例えば、スペクトル包絡推定部４２、白色化スペクトル系列生成部４３及びパラメータ取得部４４の処理は、所定の回数であるτ回だけ更に行われてもよい。τは所定の正の整数であり、例えばτ＝１又はτ＝２である。

また、スペクトル包絡推定部４２は、今回求まったパラメータηと前回求まったパラメータηとの差の絶対値が所定の閾値以下となるまで、スペクトル包絡推定部４２、白色化スペクトル系列生成部４３及びパラメータ取得部４４の処理を繰り返してもよい。

＜第二系列記憶部５２＞
第二系列記憶部５２には、第二信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列である第二系列が記憶されている。

第二信号は、第一信号に対するマッチングの対象となる音声ディジタル信号又は音響ディジタル信号等の音信号である。

第二系列は、例えば、パラメータ決定部２７’により求められて、第二系列記憶部５２に記憶される。すなわち、第二信号を構成する少なくとも１つの所定の時間長の時系列信号のそれぞれがパラメータ決定部２７’に入力され、パラメータ決定部２７’は、第一系列を求めた処理と同様の処理により、第二系列を求めて第二系列記憶部５２に記憶させてもよい。

なお、第二信号を構成する少なくとも１つの所定の時間長の時系列信号は、第二信号を構成する所定の時間長の時系列信号の全部であってもよいし、一部であってもよい。

マッチング部５１が、複数の信号のそれぞれを第二信号として、後述する判定を行う場合には、複数の信号のそれぞれに対応する第二系列が第二系列記憶部５２に記憶されているとする。

なお、パラメータ決定部２７’により求められた第二系列が、第二系列記憶部５２を介さずに直接マッチング部５１に入力されてもよい。この場合、第二系列記憶部５２はマッチング装置に備えられていなくてもよい。また、この場合、パラメータ決定部２７’が、例えば複数の信号（複数の楽曲）が記憶されている図示していないデータベースから各信号を読み込み、読み込んだ信号から第二系列を求めて、マッチング部５１に出力する。

＜マッチング部５１＞
マッチング部５１には、パラメータ決定部２７’が得た第一系列及び例えば第二系列記憶部５２から読み込んだ第二系列が入力される。

マッチング部５１は、第一系列と第二系列とに基づいて、第一信号と第二信号との一致度合い、及び／又は、第一信号と第二信号とが一致しているかどうかを判定して、その判定結果を出力する（ステップＦ２）。

第一系列を（η_1,1,η_1,2，…,η_1,N1）と表記し、第二系列を（η_2,1,η_2,2，…,η_2,N2）と表記する。N1は、第一系列を構成するパラメータηの数である。N2は、第二系列を構成するパラメータηの数である。N1≦N2であるとする。

第一信号と第二信号との一致度合いは、第一系列と第二系列との類似度である。第一系列と第二系列との類似度は、例えば、第二系列（η_2,1,η_2,2，…,η_2,N2）に含まれる、第一系列（η_1,1,η_1,2，…,η_1,N1）に最も近い系列と、第一系列（η_1,1,η_1,2，…,η_1,N1）との距離である。第二系列（η_2,1,η_2,2，…,η_2,N2）に含まれる、第一系列（η_1,1,η_1,2，…,η_1,N1）に最も近い系列の要素数と、第一系列（η_1,1,η_1,2，…,η_1,N1）の要素数とは同じであるとする。

この第一系列と第二系列との類似度は、例えば以下の式により定義される。minは、最小値を出力する関数である。この例では、距離として、ユークリッド距離を用いているが、マンハッタン距離等の他の既存の距離や誤差の標準偏差を用いてもよい。

第一系列（η_1,1,η_1,2，…,η_1,N1）から得られる、パラメータηの代表値の系列を代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）とする。同様に、第二系列（η_2,1,η_2,2，…,η_2,N2）から得られる、パラメータηの代表値の系列を代表第二系列（η_2,1 ^r,η_2,2 ^r，…,η_2,N2' ^r）とする。

例えば、cをN1及びN2の約数である所定の正の整数として、c個のパラメータηごとに代表値を得るとすると、N1'=N1/cとし、k=1,2,…,N1'として、代表値η_1,k ^rは第一系列の中の系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）の代表値である。同様に、代表値η_2,k ^rは第二系列の中の系列（η_2,(k-1)c+1,η_2,(k-1)c+2，…,η_2,kc）の代表値である。

k=1,2,…,N1'として、代表値η_1,k ^rは、第一系列の中の系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）を代表する値であり、例えば、系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）の平均値、中央値、最大値又は最小値である。k=1,2,…,N2'として、代表値η_2,k ^rは、第二系列の中の系列（η_2,(k-1)c+1,η_2,(k-1)c+2，…,η_2,kc）を代表する値であり、例えば、系列（η_2,(k-1)c+1,η_2,(k-1)c+2，…,η_2,kc）の平均値、中央値、最大値又は最小値である。

第一系列と第二系列との類似度は、代表第二系列（η_2,1 ^r,η_2,2 ^r，…,η_2,N2' ^r）に含まれる、代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）に最も近い系列と、代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）との距離としてもよい。代表第二系列（η_2,1 ^r,η_2,2 ^r，…,η_2,N2' ^r）に含まれる、代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）に最も近い系列の要素数と、代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）の要素数とは同じであるとする。

この代表値を用いた第一系列と第二系列との類似度は、例えば以下の式により定義される。minは、最小値を出力する関数である。この例では、距離として、ユークリッド距離を用いているが、マンハッタン距離等の他の既存の距離や誤差の標準偏差を用いてもよい。

第一信号と第二信号とが一致しているかどうかは、例えば、第一信号と第二信号との一致度合いと所定の閾値とを比較することにより判定することができる。例えば、マッチング部５１は、第一信号と第二信号との一致度合いが、所定の閾値より小さい又は所定の閾値以下である場合に、第一信号と第二信号とが一致していると判定し、そうでない場合には第一信号と第二信号とは一致していないと判定する。

マッチング部５１は、複数の信号のそれぞれを第二信号として、上記判定を行ってもよい。この場合、マッチング部５１は、複数の信号のそれぞれと第一信号との一致度合いを計算し、複数の信号の中の、計算された一致度合いが最も小さい信号を選択して、その一致度合いが最も小さい信号についての情報を出力してもよい。

例えば、複数の楽曲のそれぞれに対応する第二系列及び情報が第二系列記憶部５２に記憶されているとする。ユーザが、ある曲がどの楽曲であるのかを知りたいとする。この場合、ユーザは、その曲に対応する音信号を第一信号としてマッチング装置に入力して、マッチング部５１は、その曲に対応する音信号と最も一致度合いが小さい楽曲の情報を第二系列記憶部５２から得ることにより、その曲に対応する楽曲の情報を知ることができる。

なお、マッチング部５１は、第一系列（η_1,1,η_1,2，…,η_1,N1）の時間変化の系列である時間変化第一系列（Δη_1,1,Δη_1,2，…,Δη_1,N1-1）と、第二系列（η_2,1,η_2,2，…,η_2,N2）の時間変化の系列である時間変化第二系列（Δη_2,1,Δη_2,2，…,Δη_2,N2-1）とに基づいてマッチングを行ってもよい。ここで、例えば、Δη_1,k=η_1,k+1-η_1,k(k=1,2,…,N1-1)とし、Δη_2,k=η_2,k+1-η_2,k(k=1,2,…,N2-1)とする。

例えば、上記の第一系列及び第二系列を用いたマッチング処理において、第一系列（η_1,1,η_1,2，…,η_1,N1）の代わりに時間変化第一系列（Δη_1,1,Δη_1,2，…,Δη_1,N1-1）を用い、第二系列（η_2,1,η_2,2，…,η_2,N2）の代わりに時間変化第二系列（Δη_2,1,Δη_2,2，…,Δη_2,N2-1）を用いることにより、時間変化第一系列と時間変化第二系列とに基づいてマッチングを行うことができる。

また、マッチング部５１は、第一系列及び第二系列のみならず、音の大きさを表す指標（例えば、振幅又はエネルギー）、音の大きさを表す指標の時間的変動、スペクトル形状、スペクトル形状の時間的変動、ピッチの周期性、基本周波数等の音響特徴量を更に用いてマッチングを行ってもよい。例えば、（１）第一系列及び第二系列と音の大きさを表す指標とに基づいてマッギングを行ってもよい。また、（２）第一系列及び第二系列と時系列信号の音の大きさを表す指標の時間的変動とに基づいてマッギングを行ってもよい。また、（３）第一系列及び第二系列と時系列信号のスペクトル形状とに基づいてマッチングを行ってもよい。また、（４）第一系列及び第二系列と時系列信号のスペクトル形状の時間的変動とに基づいてマッギングを行ってもよい。また、（５）第一系列及び第二系列と時系列信号のピッチの周期性とに基づいてマッギングを行ってもよい。

さらに、マッチング部５１は、SVM(Support Vector Machine)、Boosting等の識別技術を用いてマッチングを行ってもよい。

なお、マッチング部５１は、後述する判定部５３の処理と同様の処理により第一信号を構成する各所定の時間長の時系列信号の種類を判定し、また、後述する判定部５３の処理と同様の処理により第二信号を構成する各所定の時間長の時系列信号の種類を判定し、それらの判定結果が同一であるかを判定することによりマッチングを行ってもよい。例えば、マッチング部５１は、第一信号についての判定結果が「音声→音楽→音声→音楽」であり、第二信号についての判定結果が「音声→音楽→音声→音楽」である場合には、第一信号と第二信号とが一致していると判定する。

［判定装置及び方法］
判定装置及び方法の一例について説明する。

判定装置は、図３に示すように、パラメータ決定部２７’及び判定部５３を例えば備えている。判定装置の各部が、図４に例示する各処理を行うことにより判定方法が実現される。

以下、判定装置の各部について説明する。

パラメータ決定部２７’により決定されたパラメータηの第一系列は、判定部５３に出力される。

パラメータ決定部２７’の詳細は、［マッチング装置及び方法］の欄で説明したものと同様であるため、ここでは重複説明を省略する。

＜判定部５３＞
判定部５３には、パラメータ決定部２７’で決定された第一系列が入力される。

判定部５３は、第一系列に基づいて、第一信号の中の所定の種類の信号の区間、及び／又は、第一信号の種類を判定する（ステップＦ３）。所定の種類の信号区間とは、例えば、音声の区間、音楽の区間、非定常音の区間、定常音の区間等の区間のことである。

第一系列を（η_1,1,η_1,2，…,η_1,N1）と表記する。N1は、第一系列を構成するパラメータηの数である。

第一信号の中の所定の種類の信号の区間の判定は、例えば、第一系列を構成するパラメータη_1,k(k=1,2,…,N1)と、所定の閾値とを比較することにより行うことができる。

例えば、判定部５３は、パラメータη_1,k≧閾値である場合には、第一信号の中の、そのパラメータη_1,kに対応する所定の時間長の時系列信号の区間を非定常音（音声、無音等）の区間であると判定する。

また、判定部５３は、閾値＞パラメータη_1,kである場合には、第一信号の中の、そのパラメータη_1,kに対応する所定の時間長の時系列信号の区間を定常音（時間的変動の緩やかな音楽等）の区間であると判定する。

また、複数の所定の閾値と比較することにより、第一信号の中の所定の種類の信号の区間の判定を行ってもよい。以下では、２個の閾値（第一閾値及び第二閾値）を用いた判定の例について説明する。第一閾値＞第二閾値とする。

例えば、判定部５３は、パラメータη_1,k≧第一閾値である場合には、第一信号の中の、そのパラメータη_1,kに対応する所定の時間長の時系列信号の区間を無音の区間であると判定する。

また、判定部５３は、第一閾値＞パラメータη_1,k≧第二閾値である場合には、第一信号の中の、そのパラメータη_1,kに対応する所定の時間長の時系列信号の区間を非定常音の区間であると判定する。

また、判定部５３は、第二閾値＞パラメータη_1,kである場合には、第一信号の中の、そのパラメータη_1,kに対応する所定の時間長の時系列信号の区間を定常音の区間であると判定する。

第一信号の種類の判定は、例えば、信号の区間の種類の判定結果に基づいて行うことができる。例えば、判定部５３は、判定された信号の区間の種類ごとに第一信号の中のその種類の信号の区間が占める割合を計算して、最も割合が大きい信号の区間の種類の割合の値が処理の閾値以上又は閾値より大である場合には、第一信号はその最も割合が大きい信号の区間の種類であると判定する。

第一系列（η_1,1,η_1,2，…,η_1,N1）から得られる、パラメータηの代表値の系列を代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）とする。例えば、cをN1の約数である所定の正の整数として、c個のパラメータηごとに代表値を得るとすると、N1'=N1/cとし、k=1,2,…,N1'として、代表値η_1,k ^rは第一系列の中の系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）の代表値である。k=1,2,…,N1'として、代表値η_1,k ^rは、第一系列の中の系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）を代表する値であり、例えば、系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）の平均値、中央値、最大値又は最小値である。

判定部５３は、代表第一系列（η_1,1 ^r,η_1,2 ^r，…,η_1,N1' ^r）に基づいて、第一信号の中の所定の種類の信号の区間、及び／又は、第一信号の種類を判定する第一信号の種類を判定してもよい。

例えば、例えば、判定部５３は、代表値η_1,k ^r≧第一閾値である場合には、第一信号の中の、その代表値η_1,k ^rに対応する所定の時間長の時系列信号の区間を音声の区間であると判定する。

ここで、代表値η_1,k ^rに対応する所定の時間長の時系列信号の区間とは、代表値η_1,k ^rに対応する第一系列の中の系列（η_1,(k-1)c+1,η_1,(k-1)c+2，…,η_1,kc）のそれぞれのパラメータηに対応する所定の時間長の時系列信号の区間のことである。

また、判定部５３は、第一閾値＞代表値η_1,k ^r≧第二閾値である場合には、第一信号の中の、その代表値η_1,k ^rに対応する所定の時間長の時系列信号の区間を音楽の区間であると判定する。

また、判定部５３は、第二閾値＞代表値η_1,k ^r≧第三閾値である場合には、第一信号の中の、その代表値η_1,k ^rに対応する所定の時間長の時系列信号の区間を非定常音の区間であると判定する。

さらに、判定部５３は、第三閾値＞代表値η_1,k ^rである場合には、第一信号の中の、その代表値η_1,k ^rに対応する所定の時間長の時系列信号の区間を定常音の区間であると判定する。

なお、判定部５３は、第一系列（η_1,1,η_1,2，…,η_1,N1）の時間変化の系列である時間変化第一系列（Δη_1,1,Δη_1,2，…,Δη_1,N1-1）に基づいて判定処理を行ってもよい。ここで、例えば、Δη_1,k=η_1,k+1-η_1,k(k=1,2,…,N1-1)とする。

例えば、上記の第一系列を用いた判定処理において、第一系列（η_1,1,η_1,2，…,η_1,N1）の代わりに時間変化第一系列（Δη_1,1,Δη_1,2，…,Δη_1,N1-1）を用いることにより、時間変化第一系列に基づいて判定を行うことができる。

また、判定部５３は、時系列信号の音の大きさを表す指標（例えば、振幅又はエネルギー）、音の大きさを表す指標の時間的変動、スペクトル形状、スペクトル形状の時間的変動、ピッチの周期性、基本周波数等の音響特徴量を更に用いて判定を行ってもよい。例えば、判定部５３は、（１）パラメータη_1,kと時系列信号の音の大きさを表す指標とに基づいて判定を行ってもよい。また、（２）パラメータη_1,kと時系列信号の音の大きさを表す指標の時間的変動とに基づいて判定を行ってもよい。また、（３）パラメータη_1,kと時系列信号のスペクトル形状とに基づいて判定を行ってもよい。また、（４）パラメータη_1,kと時系列信号のスペクトル形状の時間的変動とに基づいて判定を行ってもよい。また、（５）パラメータη_1,kと時系列信号のピッチの周期性とに基づいて判定を行ってもよい。

以下、判定部５３が、（１）パラメータη_1,kと時系列信号の音の大きさを表す指標とに基づいて判定を行う場合、（２）パラメータη_1,kと時系列信号の音の大きさを表す指標の時間的変動とに基づいて判定を行う場合、（３）パラメータη_1,kと時系列信号のスペクトル形状とに基づいて判定を行う場合、（４）パラメータη_1,kと時系列信号のスペクトル形状の時間的変動とに基づいて判定を行う場合、（５）パラメータη_1,kと時系列信号のピッチの周期性とに基づいて判定を行う場合のそれぞれについて説明する。

（１）パラメータη_1,kと音の大きさを表す指標とに基づいて判定を行う場合、判定部５３は、パラメータη_1,kに対応する時系列信号の音の大きさを表す指標が大きいかどうかを判定し、また、パラメータη_1,kが大きいかどうかを判定する。

時系列信号の音の大きさを表す指標が小さく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を周囲雑音（騒音）の区間であると判定する。

時系列信号の音の大きさを表す指標が大きいかどうかは、例えば所定の閾値C_Eに基づいて判定することができる。すなわち、時系列信号の音の大きさを表す指標の≧所定の閾値C_Eであれば時系列信号の音の大きさを表す指標が大きい、そうでない場合には時系列信号の音の大きさを表す指標は小さいと判定することができる。時系列信号の音の大きさを表す指標として、例えば、平均振幅（サンプルあたりの平均エネルギーの平方根）を用いた場合には、C_E=最大振幅値*(1/128)とする。例えば16ビット精度ならば最大振幅値は32768となるため、C_E=256とする。

パラメータη_1,kが大きいかどうかは、例えば所定の閾値C_ηに基づいて判定することができる。すなわち、パラメータη_1,k≧所定の閾値C_ηであればパラメータη_1,kが大きい、そうでない場合にはパラメータη_1,kは小さいと判定することができる。例えば、C_η=1とする。

時系列信号の音の大きさを表す指標が小さく、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間をBGMのような特徴のある背景音の区間と判定する。

時系列信号の音の大きさを表す指標が大きく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を音声やにぎやかな音楽の区間であると判定する。

時系列信号の音の大きさを表す指標が大きく、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を楽器の演奏等の音楽の区間と判定する。

（２）パラメータη_1,kと時系列信号の音の大きさを表す指標の時間的変動とに基づいて判定を行う場合には、判定部５３は、パラメータη_1,kに対応する時系列信号の音の大きさを表す指標の時間的変動が大きいかどうかを判定し、また、パラメータη_1,kが大きいかどうかを判定する。

時系列信号の音の大きさを表す指標の時間的変動が大きいかどうかは、例えば所定の閾値C_E ^'に基づいて判定することができる。すなわち、時系列信号の音の大きさを表す指標の時間的変動≧所定の閾値C_E ^'であれば時系列信号の音の大きさを表す指標の時間的変動が大きい、そうでない場合には時系列信号の音の大きさを表す指標の時間的変動は小さいと判定することができる。時系列信号の音の大きさを表す指標として、例えば、時系列信号を構成する４個のサブフレームのエネルギーの相加平均を相乗平均で割った値F=((1/4)Σ４個のサブフレームのエネルギー)/((Πサブフレームのエネルギー)^1/4)を用いた場合には、C_E ^'=1.5とする。

時系列信号の音の大きさを表す指標の時間的変動が小さく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を周囲雑音（騒音）の区間と判定する。

時系列信号の音の大きさを表す指標の時間的変動が小さく、かつ、パラメータηが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を継続音を主体とした管楽器や弦楽器の音楽の区間と判定する。

時系列信号の音の大きさを表す指標の時間的変動が大きく、かつ、パラメータη_1,kが大きい場合には、判定部５３は、パラメータη_1,kに対応する時系列信号の区間を音声の区間と判定する。

時系列信号の音の大きさを表す指標の時間的変動が大きく、かつ、パラメータη_1,kが小さい場合には、判定部５３は、パラメータη_1,kに対応する時系列信号の区間を時間変動の大きい音楽の区間と判定する。

（３）パラメータη_1,kと時系列信号のスペクトル形状とに基づいて判定を行う場合、判定部５３は、パラメータη_1,kに対応する時系列信号のスペクトル形状が平坦かどうかを判定し、また、パラメータη_1,kが大きいかどうかを判定する。

時系列信号のスペクトル形状が平坦であり、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を定常な周囲雑音（騒音）の区間と判定する。パラメータη_1,kに対応する時系列信号のスペクトル形状が平坦かどうかは、所定の閾値E_Vに基づいて判定することができる。例えば、パラメータη_1,kに対応する第１次のPARCOR係数の絶対値が所定の閾値E_V（例えば、E_V=0.7）未満なら、パラメータη_1,kに対応する時系列信号のスペクトル形状が平坦である、そうでない場合にはパラメータη_1,kに対応する時系列信号のスペクトル形状は平坦でないと判定することができる。

時系列信号のスペクトル形状が平坦であり、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を時間変動の大きい音楽の区間と判定する。

時系列信号のスペクトル形状が平坦ではなく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を音声の区間と判定する。

時系列信号のスペクトル形状が平坦ではなく、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を継続音を主体とした管楽器や弦楽器の音楽の区間と判定する。

（４）パラメータη_1,kと時系列信号のスペクトル形状の時間的変動とに基づいて判定を行う場合、判定部５３は、パラメータη_1,kに対応する時系列信号のスペクトル形状の時間的変動が大きいかどうかを判定し、また、また、パラメータη_1,kが大きいかどうかを判定する。

パラメータη_1,kに対応する時系列信号のスペクトル形状の時間的変動が平坦かどうかは、所定の閾値E_V ^'に基づいて判定することができる。例えば、時系列信号を構成する４個のサブフレームの第１次のPARCOR係数の絶対値の相加平均を相乗平均で割った値F_V=((1/4)Σ４個のサブフレームの第１次のPARCOR係数の絶対値)/((Π第１次のPARCOR係数の絶対値)^1/4)が所定の閾値E_V ^'（例えば、E_V ^'=1.2）以上なら、パラメータη_1,kに対応する時系列信号のスペクトル形状の時間的変動が大きい、そうでない場合にはパラメータη_1,kに対応する時系列信号のスペクトル形状の時間的変動は小さいと判定することができる。

時系列信号のスペクトル形状の時間的変動が大きく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を音声の区間と判定する。

時系列信号のスペクトル形状の時間的変動が大きく、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を時間変動の大きい音楽の区間と判定する。

時系列信号のスペクトル形状の時間的変動が小さく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を周囲雑音（騒音）の区間と判定する。

時系列信号のスペクトル形状の時間的変動が小さく、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を継続音を主体とした管楽器や弦楽器の音楽の区間と判定する。

（５）パラメータη_1,kと時系列信号のピッチの周期性とに基づいて判定を行う場合、判定部５３は、パラメータη_1,kに対応する時系列信号のピッチの周期性が大きいかどうかを判定し、また、また、パラメータη_1,kが大きいかどうかを判定する。

ピッチの周期性が大きいかどうかは、例えば所定の閾値C_Pに基づいて判定することができる。すなわち、ピッチの周期性≧所定の閾値C_Pであればピッチの周期性が大きい、そうでない場合にはピッチの周期性は小さいと判定することができる。ピッチの周期性として、例えば、ピッチ周期τサンプル離れた系列との正規化相関関数

（ただしx(i)は時系列のサンプル値、Nはフレームのサンプル数））を用いた場合には、C_P=0.8とする。

ピッチの周期性が大きく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を音声の区間と判定する。

ピッチの周期性が大きく、かつ、パラメータη_1,kが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を継続音を主体とした管楽器や弦楽器の音楽の区間と判定する。

ピッチの周期性が小さく、かつ、パラメータη_1,kが大きい場合には、パラメータη_1,kに対応する時系列信号の区間を周囲雑音（騒音）の区間と判定する。

ピッチの周期性が小さく、かつ、パラメータηが小さい場合には、パラメータη_1,kに対応する時系列信号の区間を時間変動の大きい音楽の区間と判定する。さらに、判定部５３は、SVM(Support Vector Machine)、Boosting等の識別技術を用いて判定を行ってもよい。この場合、パラメータηごとに音声、音楽、無音等のラベルが対応付けされた学習データを用意しておいて、この学習データを用いて予め学習をしておく。

［プログラム及び記録媒体］
各装置又は各方法における各部をコンピュータによって実現してもよい。その場合、各装置又は各方法の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置又は各方法における各部がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

マッチング装置、方法及びプログラムは、例えば、曲の出典の検索、違法コンテンツの検出、演奏楽器や曲の構成が似ている別の曲の検索に用いることができる。また、判定装置、方法及びプログラムは、例えば、著作権料の算出に用いることができる。

このようにηは次数が異なる２つの異なるモーメントm_q1,m_q2に基づく値であるとも言える。例えば、次数が異なる２つの異なるモーメントm_q1,m_q2のうち、次数が低い方のモーメントの値又はこれに基づく値（以下、前者とする。）と次数が高い方のモーメントの値又はこれに基づく値（以下、後者とする）との比の値、この比の値に基づく値、又は、前者を後者で割って得られる値に基づき、ηを求めてもよい。モーメントに基づく値とは、例えば、そのモーメントをmとしQを所定の実数としてm^Qのことである。また、これらの値を近似曲線関数~F^-1に入力してηを求めてもよい。この近似曲線関数~F’^-1は上記同様、使用する定義域において出力が正値となる単調増加関数であればよい。

また、マッチング部５１は、第一系列及び第二系列のみならず、音の大きさを表す指標（例えば、振幅又はエネルギー）、音の大きさを表す指標の時間的変動、スペクトル形状、スペクトル形状の時間的変動、ピッチの周期性、基本周波数等の音響特徴量を更に用いてマッチングを行ってもよい。例えば、（１）第一系列及び第二系列と音の大きさを表す指標とに基づいてマッチングを行ってもよい。また、（２）第一系列及び第二系列と時系列信号の音の大きさを表す指標の時間的変動とに基づいてマッチングを行ってもよい。また、（３）第一系列及び第二系列と時系列信号のスペクトル形状とに基づいてマッチングを行ってもよい。また、（４）第一系列及び第二系列と時系列信号のスペクトル形状の時間的変動とに基づいてマッチングを行ってもよい。また、（５）第一系列及び第二系列と時系列信号のピッチの周期性とに基づいてマッチングを行ってもよい。

Claims

パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとして、
第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第一系列と、第二信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第二系列とに基づいて、上記第一信号と上記第二信号との一致度合い、及び／又は、上記第一信号と上記第二信号とが一致しているかどうかを判定するマッチング部、
を含むマッチング装置。
請求項１のマッチング装置において、
パラメータη_０及びパラメータηを正の数として、所定の方法で定められるパラメータη_０を用いて、入力された所定の時間長の時系列信号に対応する周波数領域サンプル列の絶対値のη_０乗をパワースペクトルと見做してスペクトル包絡の推定を行うスペクトル包絡推定部と、上記スペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列を得る白色化スペクトル系列生成部と、パラメータηを形状パラメータとする一般化ガウス分布が上記白色化スペクトル系列のヒストグラムを近似するパラメータηを求め、求まったパラメータηを上記入力された所定の時間長の時系列信号に対応するパラメータηとするパラメータ取得部と、を含むパラメータ決定部を含み、
上記パラメータ決定部は、上記第一信号を構成する少なくとも１つの所定の時間長の時系列信号のそれぞれを入力とする処理を行うことにより、上記第一系列を得る、
マッチング装置。
請求項１又は２のマッチング装置において、
上記第二系列が記憶されている第二系列記憶部を含み、
上記マッチング部は、上記第二系列記憶部から読み込んだ上記第二系列を用いて、上記判定を行う、
マッチング装置。
請求項１から３の何れかのマッチング装置において、
上記第一信号を構成する少なくとも１つの所定の時間長の時系列信号は、上記第一信号を構成する所定の時間長の時系列信号の全部又は一部であり、
上記第二信号を構成する少なくとも１つの所定の時間長の時系列信号は、上記第二信号を構成する所定の時間長の時系列信号の全部又は一部であり、
マッチング装置。
請求項１から３のマッチング装置において、
複数の信号のそれぞれを上記第二信号として、上記判定を行う、
マッチング装置。
パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとし、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列を第一系列として、
上記第一系列に基づいて、上記第一信号の中の所定の種類の信号の区間、及び／又は、上記第一信号の種類を判定する判定部、
を含む判定装置。
パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとして、
マッチング部５１が、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第一系列と、第二信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第二系列とに基づいて、上記第一信号と上記第二信号との一致度合い、及び／又は、上記第一信号と上記第二信号とが一致しているかどうかを判定するマッチングステップ、
を含むマッチング方法。
パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとし、第一信号を構成する少なくとも１つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列を第一系列として、
判定部が、上記第一系列に基づいて、上記第一信号の中の所定の種類の信号の区間、及び／又は、上記第一信号の種類を判定する判定ステップ、
を含む判定方法。
請求項１から５の何れかのマッチング装置又は請求項６の判定装置の各部としてコンピュータを機能させるためのプログラム。
請求項１から５の何れかのマッチング装置又は請求項６の判定装置の各部としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。