JPWO2006009035A1 - 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体 - Google Patents

信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JPWO2006009035A1
JPWO2006009035A1 JP2006524548A JP2006524548A JPWO2006009035A1 JP WO2006009035 A1 JPWO2006009035 A1 JP WO2006009035A1 JP 2006524548 A JP2006524548 A JP 2006524548A JP 2006524548 A JP2006524548 A JP 2006524548A JP WO2006009035 A1 JPWO2006009035 A1 JP WO2006009035A1
Authority
JP
Japan
Prior art keywords
histogram
signal
accumulated
feature amount
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006524548A
Other languages
English (en)
Other versions
JP4447602B2 (ja
Inventor
柏野 邦夫
邦夫 柏野
昭悟 木村
昭悟 木村
隆行 黒住
隆行 黒住
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2006009035A1 publication Critical patent/JPWO2006009035A1/ja
Application granted granted Critical
Publication of JP4447602B2 publication Critical patent/JP4447602B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Abstract

本発明の信号検出システムは、目的信号から特徴量系列を導く目的信号特徴量計算部と、蓄積信号から特徴量系列を導く蓄積信号特徴量計算部と、目的信号の特徴量系列において、特徴量のヒストグラムを求める目的信号ヒストグラム計算部と、蓄積信号の特徴量系列において、特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算部と、類似度が基準を満たすヒストグラム系列をグループ化する蓄積信号ヒストグラムグループ化部と、ヒストグラムグループから出力箇所が含まれるものを選択する蓄積信号ヒストグラムグループ選択部と、ヒストグラムグループのヒストグラムに対して照合を行い、類似度値を得る蓄積信号照合部と、類似度値により照合箇所を検出結果として出力する照合結果出力部とを備える。

Description

本発明は、蓄積された信号系列の中から所定の信号、またはその一部に類似した信号を探索して検出する信号検出方法に関するものであり、例えば音響信号検出に適用可能である。
本願は、2004年7月15日に出願された特願2004−209088号に基づき優先権を主張し、その内容をここに援用する。
従来、信号検出方法に関しては、蓄積信号中で目的信号に類似した箇所を検出することを目的とした信号検索方法が知られている(例えば、特許文献1の「高速信号探索方法、装置およびその記録媒体」参照)。
しかし、この特許文献1の方法においては、局所的な枝刈り(照合すべき箇所の候補を,照合を行うことなく排除することを枝刈りと呼ぶ)のみを用いていたため、膨大な蓄積信号を対象とする場合には、検索に長時間を要するという欠点があった。
また、他の信号検出方法に関しては、特徴ベクトル間の類似度を測定するため、ユークリッド距離としてのL2距離を用いた大局的な枝刈りによる信号検索方法が知られている(例えば、特許文献2の「信号検出方法,信号検出装置,記録媒体及びプログラム」参照)。
ここで、L2距離dは以下に示す(1)式等により通常定義される。(1)式において特徴ベクトルをX,Yとすると、X=(x1,…,xN),Y=(y1,…,yN)となる。
しかし、この特許文献2の方法では、大局的な枝刈りにL1距離尺度を用いる方法が明らかでなかったため、L2距離に比べて精度が高い場合の多いL1距離のみに基づく探索を行えないという欠点があった。
ここで、後に詳細に説明するが、本発明で用いるL1距離dとは上記特徴ベクトルにおいて、xiとyiとの差の1乗に基づく距離であり、以下の(2)式により定義される。

特開2000−312343号公報 特許第3574075号
本発明はこのような事情に鑑みて、従来の技術の欠点を解決するためになされたものであり、上述した従来技術の特許文献1の方法と同等な探索精度を保証し、これら従来技術に比較し、より高速な信号検出の処理手段を提供することを目的としている。
上記目的を達成するために、本発明の信号検出システムは、蓄積されている蓄積信号から、目的信号に類似した信号を検出するシステムであって、目的信号から特徴量系列を導く目的信号特徴量計算部と、蓄積信号から特徴量系列を導く蓄積信号特徴量計算部と、前記目的信号特徴量計算部にて導かれた特徴量系列において所定の注目窓を設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算部と、前記蓄積信号特徴量計算部にて導かれた特徴量系列において、所定の注目窓を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算部と、前記蓄積信号ヒストグラム系列計算部にて得られたヒストグラム系列において、所定のL1距離尺度で計算した相互の類似度合いが、所定の基準を満たすヒストグラム系列同士をグループ化する蓄積信号ヒストグラムグループ化部と、前記蓄積信号ヒストグラムグループ化部で得られたヒストグラムグループのうちで、出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する蓄積信号ヒストグラムグループ選択部と、前記蓄積信号ヒストグラムグループ選択部にて選択されたヒストグラムグループに属するヒストグラムに対し、前記所定のL1距離尺度による照合を行い、類似度値を得る蓄積信号照合部と、前記蓄積信号照合部にて得られた類似度値により、該照合箇所を検出結果とするか否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果出力部とを備える。
この構成により、本発明は、特許文献1の方法と同一の検索精度を保証しつつ、目的信号が与えられてから検索結果が得られるまでの時間(探索時間)を、特許文献1に比較して短縮することができる。
また、本発明は、大局的枝刈り操作における距離尺度において、特許文献2のL2尺度を用いずに、新たにL1距離を用いた尺度を採用して、特許文献1の方法と同一の検索精度を保証できる。
さらに、本発明における蓄積信号ヒストグラムグループ化部において、グループ化する際の閾値として、予め設定されるL1距離の限界値を用いてもよい。これにより、L1距離に基づく全探索と同一の精度を保証することができる。
本発明においては、さらに、蓄積信号ヒストグラム間引き部を具備してもよい。これにより、精度を損なうことなく、より高速な検索が実現できる。
以上説明したように、本発明によれば、L1距離に基づいて、大局的グループ化および局所的グループ化を行い、探索空間を効率的に絞り込むことによって、既に示した先行技術(特許文献1及び特許文献2)の方法に比較し、探索精度を保ちつつ、高速に効果的な部分信号検出ができるという利点がある。
図1は、本発明の第1(及び第2の実施例)による信号検出システムの構成例を示すブロック図である。 図2は、本発明の第1,第2及び第3の実施例による信号検出方法の処理の流れを示す概念図である。 図3は、本発明の第1,第2及び第3の実施例による信号検出方法の処理の流れを示す概念図である。 図4は、本発明の第3の実施例による信号検出システムの構成例を示すブロック図である。 図5は、本発明の第1,第2及び第3の実施例による信号検出方法の処理による検出結果を、従来例のシステムの検出結果と比較したテーブルである。
符号の説明
1 目的信号特徴量計算部
2 蓄積信号特徴量計算部
3 目的信号ヒストグラム計算部
4 蓄積信号ヒストグラム系列計算部
5 蓄積信号ヒストグラムグループ化部
6 蓄積信号ヒストグラムグループ選択部
7 蓄積信号照合部
8 照合結果出力部
9 蓄積信号ヒストグラム間引き部
<第1の実施例>
次に、本発明の一実施例について図面を用いて説明する。
図1は、本発明方法を適用した信号検出システムの第1の実施例を示すブロック図である。
なお、以下では主に映像信号を対象とする装置について説明するが、下記と同一の構成において、目的信号特徴量計算部1および蓄積信号特徴量計算部2において、目的信号及び蓄積信号としての音響信号から特徴抽出を行うことにより、音響信号の探索を行うことも可能である。
本第1の実施例の信号検出システムは、目的信号特徴量計算部1と、蓄積信号特徴量計算部2と、目的信号ヒストグラム計算部3と、蓄積信号ヒストグラム系列計算部4と、蓄積信号ヒストグラムグループ化部5と、蓄積信号ヒストグラムグループ選択部6と、蓄積信号照合部7と、照合結果出力部8と、で構成されている。
すなわち、上述した構成により、本発明の信号検出システムは、目的信号すなわち見本である検索する信号をその一部として含む信号と、蓄積信号すなわち検索される信号とを入力し、目的信号のある一部分との類似度が、あらかじめ設定した値(これを探索閾値という)θを超える蓄積信号における箇所を出力する。
目的信号特徴量計算部1は、入力される目的信号から特徴量系列を導く。
そして、蓄積信号特徴量計算部2は、入力される蓄積信号から特徴量系列を導く。
次に、目的信号ヒストグラム計算部3は、上記目的信号特徴量計算部1が導いた特徴量系列において、ある長さの注目窓を設定し、該注目窓内の特徴量のヒストグラムを計算する。
また、蓄積信号ヒストグラム系列計算部4は、上記蓄積信号特徴量計算部2が導いた特徴量系列において、ある長さの注目窓を、この注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量のヒストグラムを計算することでヒストグラム系列を得る。
そして、蓄積信号ヒストグラムグループ化部5は、上記蓄積信号ヒストグラム系列計算部4により得られたヒストグラム系列において、所定のL1距離尺度で計算した相互の類似度合い(例えば、後に説明する類似値)が、所定の基準を満たすヒストグラムどうしをまとめることでグループ化する。
次に、蓄積信号ヒストグラムグループ選択部6は、上記蓄積信号ヒストグラムグループ化部5により得られたヒストグラムグループの中から、出力すべき箇所が含まれる可能性の有無を判定し、可能性があるヒストグラムグループを選択する。
蓄積信号照合部7は、上記蓄積信号ヒストグラムグループ選択過程で選択されたヒストグラムグループに属するヒストグラムに対して前記所定の距離尺度による照合を行い類似度値を得る。
照合結果出力手段8は、上記蓄積信号照合過程で得られた類似度値をもとに、該照合箇所を検出結果として出力すべきか否かを判定し、出力すべきものである場合にはこれを出力する。
次に、図1を参照して第1の実施例による信号検出システムの動作を説明する。
目的信号特徴量計算部1は、与えられた所定の目的信号を読み込む。
そして、目的信号特徴量計算部1は、読み込んだ目的信号に対して特徴抽出を行う。
本第1の実施例においては、抽出する特徴として、目的信号として入力される映像の映像特徴を用いる。
この映像特徴としては、離散コサイン変換に基づくものをはじめ、様々なものが適用できるが、本第1の実施例では色特徴を用いることとする。
すなわち、映像の1フレームの画像を横4等分、縦3等分の計12分割し、それぞれの分割内でのRGB値を特徴として、計36次元特徴ベクトルとする。
pがフレーム番号を示し、Wが分割数(ここでは12)を示すとすると、映像特徴x(p)は以下の(3)式により表される。
(3)式において、cはr(赤),g(緑),b(青)のいずれかを示し、jは1から分割数Wまでの整数のいずれかを示す。また、xjcは正規化されたRGB値であり、以下の(4)式により定義される。
この(4)式において、Ii(p)はi番目の分割画像に合まれる画素の集合であり、iは1から分割数Wまでの整数のいずれかを示す。また、|・|は集合の要素数を表し、|Ii(p)|はi番目の分割画像に含まれる画素数であり、yqc(p)が画素qにおける色cのカラー値を表している。
次に、蓄積信号特徴量計算部2は、はじめに、蓄積信号を読み込む。
そして、蓄積信号特徴量計算部2は、読み込んだ蓄積信号に対して特徴抽出を行う。この蓄積信号特徴量計算部2における特徴抽出は、既に説明した目的信号特徴量計算部1の特徴抽出と同様の処理により行われる。
次に、目的信号ヒストグラム計算部3は、目的信号特徴量計算部1が出力する特徴ベクトルの系列を読み込む。
そして、目的信号ヒストグラム計算部3は、入力した特徴ベクトルの系列に対して、注目窓を設定する。
本第1の実施例においては、上記注目窓の長さをDとする。
次に、目的信号ヒストグラム計算部3は、注目窓内の特徴ベクトルから、特徴ベクトルのヒストグラムを作成する。
すなわち、目的信号ヒストグラム計算部3は、量子化対象の特徴ベクトルが入力されると(ステップ1)、予め作成されたコードブックを参照して、どの代表ベクトルに最も近いかを検索し(ステップ2)、検索された最も近い代表ベクトルを、入力された特徴ベクトルを量子化した結果として出力する(ステップ3)。
なお、上記コードブックの作成は、学習用ベクトルを用意し(ステップ1)、公知のクラスタリングアルゴリズム例えば、LBG(Linde-Buzo-Gray)アルゴリズムにより学習用ベクトルを分類し(ステップ2)、それぞれの分類において重心を代表ベクトルとし、この代表ベクトルの集合をコードブックとすることにより可能である。
そして、目的信号ヒストグラム計算部3は、図2のS2に示すように、上述した処理により分類された特徴ベクトルに対し、それぞれの分類についての特徴ベクトルの個数を数えることにより、特徴ベクトルのヒストグラムを作成する。
ここで、目的信号ヒストグラム計算部3において、目的信号について得られたヒストグラムをH(R)とする。
ただし、Rはヒストグラムが目的信号の特徴ベクトルから作られたものであることを表す添え字である。
次に、蓄積信号ヒストグラム系列計算部4は、はじめに、蓄積信号特徴量計算部2から出力される特徴ベクトルの系列を読み込む。
そして、蓄積信号ヒストグラム系列計算部4は、時系列に読み込まれる特徴ベクトルの系列に対して、目的信号ヒストグラム計算部3と同様に注目窓を設定する。この注目窓の長さは、目的信号ヒストグラム計算部3が目的信号に対して設定した注目窓と同一の長さ(すなわち、D)とする。
そして、蓄積信号ヒストグラム系列計算部4は、蓄積信号の特徴ベクトルの系列において、系列の先頭から、特徴ベクトル毎に1つずつ注目窓をずらしながら、順次ヒストグラムを作成し、図2のS2におけるヒストグラムの系列を得る。
ここで、蓄積信号ヒストグラム系列計算部4は、各ヒストグラムの作成の処理を、上記目的信号ヒストグラム計算部3におけるヒストグラムの生成と同様の処理により行う。
すなわち、蓄積信号ヒストグラム系列計算部4は、順次入力されてくる特徴ベクトルを、目的信号ヒストグラム計算部3と同様のベクトル量子化の手法によって分類し、それぞれの分類についての特徴ベクトルの個数を数えることにより、特徴ベクトルのヒストグラムを作成する。
次に、蓄積信号ヒストグラムグループ化部5は、蓄積信号ヒストグラム系列計算部4から出力される蓄積信号ヒストグラム系列を読み込む。
そして、蓄積信号ヒストグラムグループ化部5は、所定の距離尺度(L1尺度)で測定した蓄積信号ヒストグラム系列の各部分について、相互の類似度値が一定以上である箇所をグループとしてまとめていく。
これは、以下に説明する局所的グループ化(本実施例である第1の実施例)および大局的グループ化(後に説明する第2の実施例)の2種類のうちの少なくともいずれかを行うことで実現できる。
まず、局所的グループ化について説明する。局所的グループ化は、映像信号の同一ショット内での類似性のように、音や映像の信号によく見られる局所的な類似性に着目したものである。
蓄積信号ヒストグラム系列計算部4から出力される,蓄積信号ヒストグラムをH (S)(i=1,…,I)とし、局所的グループ化におけるヒストグラムグループをC (L)(j=1,2,・・・J)とする。
初期状態はi=1,j=1,J=1,C (L)がただ1つのメンバーH (S)をもつ状態である。
以下に示す手順により、蓄積信号ヒストグラムグループ化部5がグループ化を行うことができる。
(A1)iを1つ増加させる。
(A2)例えば、以下に示す(5)式により、Sij (L)を計算する。これはH (S)と、C (L)の代表ヒストグラム特徴H (L)との類似度である(距離が小さいことと類似度値が高いこととは等価である)。
上記(5)式は、例えば、ヒストグラム重なり率により、ヒストグラムH (S)とH (L)との距離を求めるものである。
この式において、ヒストグラム系列H (S)及びH (L)は以下に示す(6)式の様に定義される。
(A3)もし、Sij (L)>θ(L)であれば、H (S)を、C (L)の要素に加える。ここで、閾値θ(L)のLは局所的グループ化に対して用いる閾値であることを示している。この閾値θ(L)は、局所的グループ化におけるL1距離の下限値(類似度の上限値)に基づくものである。
一方、Sij (L)≦θ(L)であれば、新しい蓄積信号ヒストグラム特徴グループを作り、ヒストグラム系列Hi (S)をその代表ヒストグラム特徴とし、jおよびJを1つ増加させる。
(A4)i≠Iであれば、上記(A1)の処理に戻る。
この手順において、C (L)の最初の要素Hm(j) (S)がC (L)の代表ヒストグラムH (L)となる。すなわち、各C (L)に含まれるすべてのH (S)について、次の(7)式が成り立つ。
そして、蓄積信号ヒストグラムグループ選択部6は、目的信号ヒストグラム計算部3から出力された目的信号ヒストグラムを読み込む。
次に、蓄積信号ヒストグラムグループ選択部6は、蓄積信号ヒストグラムグループ化部5から出力された、蓄積信号ヒストグラムグループを読み込み、それぞれのグループの代表ヒストグラム特徴と、予め設定された類似度閾値とを参照し、照合する必要のあるヒストグラムグループのみを選択する。
すなわち、蓄積信号ヒストグラムグループ選択部6は、入力されるヒストグラムグループの中から、予め設定された類似閾値を超えるヒストグラムグループがあるものを選択し、出力すべき箇所が含まれる可能性があると判定して出力する。
蓄積信号照合部7は、蓄積信号ヒストグラムグループ選択部6により選択された蓄積信号ヒストグラムグループのみに対して、そのグループに属する蓄積信号ヒストグラム特徴と、目的信号ヒストグラムとの類似度値を計算する。類似度尺度は、L1距離を用いる場合、以下に示す(8)式により、類似度Sとして定義される。
上記(8)式において、図3に示すように、H(R)とH(S)とはそれぞれ目的信号ヒストグラムと蓄積信号ヒストグラムであり、Dは注目窓の長さである。
そして、蓄積信号照合部7は、類似度Sが設定された探索閾値θよりも大きい箇所を検出すると、蓄積信号の当該箇所に目的信号が検出されたものと判定する。
次に、照合結果出力部8は、蓄積信号照合部7から出力された、目的信号との閾値が設定した閾値以上となる箇所の情報を入力し、目的に応じた出力形式に整えた上で、実際に検索結果として出力する。
上記目的に応じた出力形式としては、たとえば、映像が記録された日時や映像につけられた題名などの添付情報が考えられる。
そして、上記添付情報は、あらかじめ蓄積信号と対応づけたものを、照合結果出力部8内部の記憶部等に格納しておく。
<第2の実施例>
次に、図1を参照して、第2の実施例の説明を行う。なお、第2の実施例は、構成として第1の実施例と同様である。第2の実施例が第1の実施例と異なる点は、蓄積信号ヒストグラムグループ化部5が、図2のS4に示す局所的グループ化を行った後、これらの局所的グループをさらにグループ化し、大局的グループ化を行う点である。
以下に、蓄積信号ヒストグラムグループ化部5において行われる大局的グループ化について説明する。
大局的グループ化においては、グループ内の全ての要素と、そのグループの代表ヒストグラム特徴との類似度がθ(G)なる閾値よりも大きくなるようなグループを作る。ここで、θ(G)のGは大局的グループ化に対して用いる閾値であることを示している。この閾値θ(G)は、大局的グループ化におけるL1距離の下限値(類似度の上限値)に基づくものである。
このようなグループC (G)は、たとえば、以下のような手順で蓄積信号ヒストグラムグループ化部5がグループ化を行うことができる。
上述した局所的グループ化において作成された局所的グループをC (L)(j=1,…,J)とする。また、大局的グループ化の初期状態をj=1,J=(局所的グループ化で作成された局所的グループの数)、大局的グループのインデックスk=0、大局的グループの数K=0とする。
(B1)C (L)の要素がまだどの大局的グループにも属していないようなものが見つかるまでjを増加させる。
そして、そのようなC (L)があれば、kを1増加させ、新たな大局的グループC (G)を作ってKを増加させる。
これにより、C (L)の全ての要素をC (G)の要素に加える。
(B2)C (G)の代表ヒストグラム特徴H (G)と、C (L)(p=j+1,…J)の代表ヒストグラム特徴H (L)との距離Spk (G)=S(H (L),H (G))を計算する。なお、C (L)は、以下の式(9)を満たす。

(B3)もし、Spk (G)>θ(G)ならば、C (L)の全ての要素をC (G)に加える。
(B4)j≠Jであれば、処理(B1)に戻る。
そして、蓄積信号ヒストグラムグループ化部5は、得られた蓄積ヒストグラムグループを、蓄積信号ヒストグラムグループ選択部6へ出力する。
後の処理は、第1の実施例と同様である。
<第3の実施例>
次に、図4を参照して第3の実施例の説明を行う。なお、本発明の図4に示す第3の実施例は、構成としては図1に示す第1及び第2の実施例と同様の構成であり、異なる点として蓄積信号ヒストグラム系列計算部4と蓄積信号ヒストグラムグループ化部5との間に、蓄積信号ヒストグラム間引き部9をさらに設けることを特徴とする。
すなわち、第1及び第2の実施例で説明したように、図2のS2における全ての特徴ベクトルを用いるのではなく、図2のS3に示すように、特徴ベクトルを所定の数ずつずらしながら、すなわち間引きを行いヒストグラム系列を作成する。
たとえば、間引き数をM=50とすると、ヒストグラムをグループ化する際に用いるヒストグラムの数を、50個から1個に圧縮することができる。
このようにすると、ヒストグラム系列の記憶に必要な記憶装置の容量が1/Mに削減できるほか、検索の速度向上にも効果がある。
蓄積信号ヒストグラムグループ化部5は、蓄積信号ヒストグラム間引き部9から出力された、蓄積信号ヒストグラム系列を読み込む。
ここで、蓄積信号ヒストグラムグループ化部5における計算には、あらかじめ設定した探索閾値θよりもやや低い第2の探索閾値θ”を、以下に示す(10)式により設定されている。
上記(10)式において、θ’は、以下の(11)式により定義される。
上記(11)式において、Mは間引き数である。
この第2の閾値を用いれば、もし局所的グループC (L)に対し、目的信号のヒストグラムH(R)とC (L)の代表ヒストグラムH (L)との類似度SRj (L)=S(H(R),H (L))において、SRj (L)≦θ”が成り立つならば、精度を失うことなく、C (L)の残りの要素についての照合計算を省くことができる。
そして、蓄積信号ヒストグラムグループ化部5は、得られる蓄積ヒストグラムグループを蓄積信号ヒストグラムグループ選択部6へ出力する。
そして、第2の実施例にあるように、大局的グループ化を行う際、蓄積信号ヒストグラムグループ化部5は、ヒストグラム系列の間引きを行う場合、以下に示す第3の閾値を導入することとなる。
このとき、下記に示す(12)式により定義する第3の探索閾値θ(T)を導入すると、大局的グループC (G)に対し、目的信号のヒストグラムH(R)とC (G)の代表ヒストグラムH (G)との類似度SRk (G)=S(H(R),H (G))において、もしSRk (G)≦θ(T)であれば、C (G)の残りの要素については照合をスキップしても、探索漏れを起こすことはないことが保証される。
他の処理は、第1及び第2の実施例の処理と同様である。
上述したように、蓄積信号ヒストグラム間引き部9を設けた場合にも、検索結果は蓄積信号ヒストグラム間引きを行わない場合と厳密に同一の結果を保証でき、その点が本発明における第3の実施例の著しい特徴となっている。
そして、本発明の第3の実施例において、ヒストグラムの間引きを行った場合に、間引きにより探索漏れを起こさないことが保証できているが、そのままでは余分な出力が含まれる可能性がある。
そこで、間引き幅の範囲内で、検出された箇所の前後においてヒストグラムを間引かない状態での照合を改めて行う。これにより、探索漏れも余分な検出のいずれもない出力を得ることができる。
<本発明の応用例>
次に、本発明による信号検出システムの動作実験例を図5に示す。
本発明の信号検出システムの効果を確認するため、映像信号を対象として、信号検出の実験を行った。
ここで、映像信号としての蓄積信号の長さは150時間とし、NTSC形式の映像信号を29.97frames/s のフレームレートにより、MPEG−2の圧縮形式により圧縮したものを蓄積し、これを蓄積信号とした。
また、上記映像信号は画面サイズが704×480画素とした。
そして、上記蓄積信号の中から、7.5秒間の映像断片を無作為に選択し、これを目的信号として、上記蓄積信号から検素した。
実験において、目的信号の探索に用いる各閾値を、θ=0.8,θ=0.9,θ=0.6;M/D=0.1とした。
図5のテーブルは、10個の目的信号について、これらの探索処理に要した時間の平均のCPU時間を示している。
上記テーブルにおいて、方法として「TAS」(時系列アクティブ検索法)と記載されているものが特許文献1の「高速信号探索方法、装置およびその記録媒体」における信号検出方法である。
このように、上記「TAS」と同一の結果を得られる手法でありながら、「TAS」よりも10倍以上高速な検索が可能となっている。
なお、ヒストグラム間引きを導入しなければ、ヒストグラム1つの記憶容量が512バイトとするとき、150時間分のヒストグラムの記憶容量は8GB以上になりパーソナルコンピュータ等での実現が困難となるが、M/D=0.1の設定により約380MBにまで削減される。
さらに、局所的グループ化の効果は小さいように見えるが、大局的グループ化において考慮しなければならないヒストグラム特徴の数を、局所的グループ化を行わない場合の808821から348546まで削減し、大局的グループ化に必要な計算量を削減したことがわかった。
なお、図1における信号検出システムの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、信号検出処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明は、例えば、インターネット上での音楽の使用を適正に管理する目的で、予め登録した対象楽曲の音響信号をもとに、その一部が含まれているインターネット上の音響信号ファイルを検出する技術に用いることが可能である。
また、本発明は、上述してきたような音響信号だけではなく、インターネット上での映像情報の管理などを目的とした映像信号の検出にも応用可能である。

Claims (10)

  1. 蓄積されている蓄積信号から、目的信号に類似した信号を検出するシステムであって、
    目的信号から特徴量系列を導く目的信号特徴量計算部と、
    蓄積信号から特徴量系列を導く蓄積信号特徴量計算部と、
    前記目的信号特徴量計算部にて導かれた特徴量系列において所定の注目窓を設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算部と、
    前記蓄積信号特徴量計算部にて導かれた特徴量系列において、所定の注目窓を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算部と、
    前記蓄積信号ヒストグラム系列計算部にて得られたヒストグラム系列において、所定のL1距離尺度で計算した相互の類似度合いが、所定の基準を満たすヒストグラム系列同士をグループ化する蓄積信号ヒストグラムグループ化部と、
    前記蓄積信号ヒストグラムグループ化部で得られたヒストグラムグループのうちで、出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する蓄積信号ヒストグラムグループ選択部と、
    前記蓄積信号ヒストグラムグループ選択部にて選択されたヒストグラムグループに属するヒストグラムに対し、前記所定のL1距離尺度による照合を行い、類似度値を得る蓄積信号照合部と、
    前記蓄積信号照合部にて得られた類似度値により、該照合箇所を検出結果とするか否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果出力部と、
    を備える信号検出システム。
  2. 請求項1に記載の信号検出システムにおいて、前記蓄積信号ヒストグラムグループ化部は、ヒストグラムのグループ化をL1距離尺度の限界値に基づいて行う信号検出システム。
  3. 請求項1または請求項2に記載の信号検出システムにおいて、前記蓄積信号ヒストグラム系列計算部にて得られたヒストグラム系列において、ヒストグラムを間引く蓄積信号ヒストグラム間引き部を備える信号検出システム。
  4. 請求項1から請求項3のいずれかに記載の信号検出システムにおいて、前記蓄積信号ヒストグラムグループ化部が、
    前記ヒストグラム系列における連続するヒストグラムについて相互の類似度合いが所定の基準を満たすヒストグラム同士をグループ化する蓄積信号ヒストグラム局所グループ化部、または
    前記ヒストグラム系列における全てのヒストグラムについて相互の類似度合いが所定の基準を満たすヒストグラム同士をグループ化する蓄積信号ヒストグラム大局グループ化部
    のいずれかを有する信号検出システム。
  5. 請求項1から請求項3のいずれかに記載の信号検出システムにおいて、前記蓄積信号ヒストグラムグループ化部が、
    前記ヒストグラム系列における連続するヒストグラムについて相互の類似度合いが所定の基準を満たすヒストグラム同士をグループ化する蓄積信号ヒストグラム局所グループ化部、および
    前記ヒストグラム系列における全てのヒストグラムについて相互の類似度合いが所定の基準を満たすヒストグラム同士をグループ化する蓄積信号ヒストグラム大局グループ化部
    を有する信号検出システム。
  6. 蓄積されている蓄積信号から、目的信号に類似した信号を検出する方法であって、
    目的信号から特徴量系列を導く目的信号特徴量計算過程と、
    蓄積信号から特徴量系列を導く蓄積信号特徴量計算過程と、
    前記目的信号特徴量計算過程にて導かれた特徴量系列において所定の注目窓を設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算過程と、
    前記蓄積信号特徴量計算過程にて導かれた特徴量系列において、所定の注目窓を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算過程と、
    前記蓄積信号ヒストグラム系列計算過程にて得られたヒストグラム系列において、所定のL1距離尺度で計算した相互の類似度合いが、所定の基準を満たすヒストグラム系列同士をグループ化する蓄積信号ヒストグラムグループ化過程と、
    前記蓄積信号ヒストグラムグループ化過程で得られたヒストグラムグループのうちで、出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する蓄積信号ヒストグラムグループ選択過程と、
    前記蓄積信号ヒストグラムグループ選択過程にて選択されたヒストグラムグループに属するヒストグラムに対し、前記所定のL1距離尺度による照合を行い、類似度値を得る蓄積信号照合過程と、
    前記蓄積信号照合過程にて得られた類似度値により、該照合箇所を検出結果とするか否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果出力過程と、
    を備えることを特徴とする信号検出方法。
  7. 請求項6に記載の信号検出方法において、前記蓄積信号ヒストグラムグループ化過程におけるヒストグラムのグループ化がL1距離尺度の上限値に基づいて行われる信号検出方法。
  8. 請求項6または請求項7に記載の信号検出方法において、前記蓄積信号ヒストグラム系列計算過程にて得られたヒストグラム系列からヒストグラムを間引く蓄積信号ヒストグラム間引き過程を備える信号検出方法。
  9. 蓄積されている蓄積信号から、目的信号に類似した信号の検出処理を実行するプログラムであり、
    目的信号から特徴量系列を導く目的信号特徴量計算処理と、
    蓄積信号から特徴量系列を導く蓄積信号特徴量計算処理と、
    前記目的信号特徴量計算処理にて導かれた特徴量系列において所定の注目窓を設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算処理と、
    前記蓄積信号特徴量計算過程処理導かれた特徴量系列において、所定の注目窓を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算処理と、
    前記蓄積信号ヒストグラム系列計算処理にて得られたヒストグラム系列において、所定のL1距離尺度で計算した相互の類似度合いが、所定の基準を満たすヒストグラム系列同士をグループ化する蓄積信号ヒストグラムグループ化処理と、
    前記蓄積信号ヒストグラムグループ化処理で得られたヒストグラムグループのうちで、出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する蓄積信号ヒストグラムグループ選択処理と、
    前記蓄積信号ヒストグラムグループ選択処理にて選択されたヒストグラムグループに属するヒストグラムに対し、前記所定のL1距離尺度による照合を行い、類似度値を得る蓄積信号照合処理と、
    前記蓄積信号照合処理にて得られた類似度値により、該照合箇所を検出結果とするか否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果出力処理と
    をコンピュータに実行させるプログラム。
  10. 請求項9に記載の信号検出処理を行うプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006524548A 2004-07-15 2005-07-13 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体 Active JP4447602B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004209088 2004-07-15
JP2004209088 2004-07-15
PCT/JP2005/012921 WO2006009035A1 (ja) 2004-07-15 2005-07-13 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPWO2006009035A1 true JPWO2006009035A1 (ja) 2008-05-01
JP4447602B2 JP4447602B2 (ja) 2010-04-07

Family

ID=35785150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006524548A Active JP4447602B2 (ja) 2004-07-15 2005-07-13 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体

Country Status (5)

Country Link
US (1) US7653241B2 (ja)
EP (1) EP1713059A4 (ja)
JP (1) JP4447602B2 (ja)
CN (1) CN100592387C (ja)
WO (1) WO2006009035A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5008078B2 (ja) * 2007-10-05 2012-08-22 Kddi株式会社 パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP5309343B2 (ja) * 2011-08-01 2013-10-09 Kddi株式会社 パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2013070158A (ja) * 2011-09-21 2013-04-18 Kddi Corp 映像検索装置およびプログラム
JP5800718B2 (ja) * 2012-01-12 2015-10-28 日本電信電話株式会社 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム
US10580135B2 (en) 2016-07-14 2020-03-03 Shanghai United Imaging Healthcare Co., Ltd. System and method for splicing images

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3065314B1 (ja) 1998-06-01 2000-07-17 日本電信電話株式会社 高速信号探索方法、装置およびその記録媒体
DE1174804T1 (de) * 2000-07-21 2002-10-02 Lg Electronics Inc Verfahren zum Suchen von Multimedia-Daten mit progressiven Histogrammen
JP3574075B2 (ja) 2001-02-07 2004-10-06 日本電信電話株式会社 信号検出方法、信号検出装置、記録媒体及びプログラム
US6865295B2 (en) * 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
JP2003069934A (ja) * 2001-08-23 2003-03-07 Olympus Optical Co Ltd 記憶装置
JP3884006B2 (ja) * 2002-12-06 2007-02-21 日本電信電話株式会社 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体

Also Published As

Publication number Publication date
EP1713059A4 (en) 2012-07-04
EP1713059A1 (en) 2006-10-18
JP4447602B2 (ja) 2010-04-07
US20070112728A1 (en) 2007-05-17
CN100592387C (zh) 2010-02-24
CN1910652A (zh) 2007-02-07
WO2006009035A1 (ja) 2006-01-26
US7653241B2 (en) 2010-01-26

Similar Documents

Publication Publication Date Title
CN109977262B (zh) 从视频中获取候选片段的方法、装置及处理设备
US8737817B1 (en) Music soundtrack recommendation engine for videos
CN109684506B (zh) 一种视频的标签化处理方法、装置和计算设备
CN109493881B (zh) 一种音频的标签化处理方法、装置和计算设备
US20070195344A1 (en) System, apparatus, method, program and recording medium for processing image
JP4447602B2 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
KR20090020005A (ko) 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
US11615132B2 (en) Feature amount generation method, feature amount generation device, and feature amount generation program
US7054388B2 (en) Signal detection method and apparatus, relevant program, and storage medium storing the program
US10997972B2 (en) Object authentication device and object authentication method
JP5644505B2 (ja) 照合加重情報抽出装置
JP5488077B2 (ja) 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
US20150356741A1 (en) Image transmission system, image processing apparatus, image storage apparatus, and control methods thereof
JP5538781B2 (ja) 画像検索装置及び画像検索方法
WO2010140195A1 (ja) 映像編集装置
JP3408800B2 (ja) 信号検出方法、装置及びそのプログラム、記録媒体
JP2013105393A (ja) 映像付加情報関係性学習装置、方法、及びプログラム
JP2009049667A (ja) 情報処理装置、その処理方法およびプログラム
JP2009103945A (ja) 映像コンテンツ処理装置およびプログラム
JP5275376B2 (ja) 情報処理装置及び情報処理プログラム
JP4762871B2 (ja) 信号箇所・変動パラメータ検出方法、信号箇所・変動パラメータ検出装置ならびにそのプログラムと記録媒体
JP3943060B2 (ja) 信号検出方法、装置、プログラム及びその記録媒体
CN117251598A (zh) 视频检索方法
JP4405321B2 (ja) 信号照合システム及び方法並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4447602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350