WO2006009035A1 - 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体 - Google Patents

信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
WO2006009035A1
WO2006009035A1 PCT/JP2005/012921 JP2005012921W WO2006009035A1 WO 2006009035 A1 WO2006009035 A1 WO 2006009035A1 JP 2005012921 W JP2005012921 W JP 2005012921W WO 2006009035 A1 WO2006009035 A1 WO 2006009035A1
Authority
WO
WIPO (PCT)
Prior art keywords
histogram
signal
accumulated
feature amount
series
Prior art date
Application number
PCT/JP2005/012921
Other languages
English (en)
French (fr)
Inventor
Kunio Kashino
Akisato Kimura
Takayuki Kurozumi
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to EP05765727A priority Critical patent/EP1713059A4/en
Priority to US10/588,182 priority patent/US7653241B2/en
Priority to JP2006524548A priority patent/JP4447602B2/ja
Publication of WO2006009035A1 publication Critical patent/WO2006009035A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Definitions

  • Signal detection method signal detection system, signal detection processing program, and recording medium on which the program is recorded
  • the present invention relates to a signal detection method for searching for and detecting a predetermined signal from a stored signal series or a signal similar to a part thereof, and is applicable to, for example, acoustic signal detection. .
  • Patent Document 1 uses only local pruning (excluding candidates for locations to be matched without performing matching is called pruning), a huge amount of accumulated signals is used. However, there is a drawback that it takes a long time to search.
  • Patent Document 2 there is a method that uses the L1 distance scale for global pruning. Because of its obvious power, it was difficult to search based only on the LI distance, which is often more accurate than the L2 distance.
  • the L1 distance d used in the present invention is a distance based on the first power of the difference between X and y in the above feature vector, and is defined by the following equation (2).
  • Patent Document 1 JP 2000-312343 A
  • Patent Document 2 Japanese Patent No. 3574075
  • the present invention has been made to solve the drawbacks of the prior art, and guarantees search accuracy equivalent to the method of Patent Document 1 of the prior art described above.
  • the purpose is to provide faster signal detection processing means.
  • a signal detection system of the present invention is a system for detecting a signal similar to a target signal from stored stored signals, wherein a feature quantity sequence is derived from the target signal.
  • a predetermined attention window is set in the target signal feature amount calculation unit, the stored signal feature amount calculation unit for deriving the stored signal force feature amount sequence, and the feature amount sequence derived by the target signal feature amount calculation unit,
  • the target signal histogram calculation unit for calculating the histogram of the feature amount in the attention window and the feature amount sequence derived by the accumulated signal feature amount calculation unit, a predetermined attention window is set to a size corresponding to the attention window.
  • An accumulation signal histogram sequence calculation unit that obtains a histogram sequence by calculating a histogram of feature values in the target window by sequentially setting each portion, and the accumulation signal histogram sequence calculation unit.
  • An accumulated signal histogram grouping unit for grouping histogram sequences in which the degree of similarity calculated on a predetermined L1 distance scale satisfies a predetermined criterion
  • An accumulated signal histogram group selecting unit for determining whether or not there is a possibility of including a portion to be output from among the histogram groups obtained by the accumulated signal histogram grouping unit;
  • the stored signal matching unit for obtaining a similarity value by matching the histograms belonging to the histogram group selected by the stored signal histogram group selecting unit with the predetermined L1 distance scale, and the stored signal matching unit. It is determined whether or not the collation location is set as a detection result based on the similarity value obtained in this manner, and when it is determined as the detection result, a collation result output unit
  • the present invention guarantees the same search accuracy as the method of Patent Document 1, and calculates the time (search time) until a force search result is obtained when a target signal is given. Can be shortened compared to 1.
  • the present invention adopts a new scale using the L1 distance instead of the L2 scale of Patent Document 2 in the distance scale in the global pruning operation, and has the same search accuracy as the method of Patent Document 1. Can guarantee.
  • a preset limit value of the L1 distance may be used as a threshold for grouping.
  • FIG. 1 is a block diagram showing a configuration example of a signal detection system according to the first (and second embodiment) of the present invention.
  • FIG. 2 is a conceptual diagram showing a processing flow of signal detection methods according to the first, second, and third embodiments of the present invention.
  • FIG. 3 is a conceptual diagram showing a processing flow of signal detection methods according to the first, second and third embodiments of the present invention.
  • FIG. 4 is a block diagram showing a configuration example of a signal detection system according to a third example of the present invention.
  • FIG. 5 is a table comparing the detection results obtained by the signal detection method processing according to the first, second and third embodiments of the present invention with the detection results of the conventional system.
  • FIG. 1 is a block diagram showing a first embodiment of a signal detection system to which the method of the present invention is applied.
  • the target signal feature quantity calculation unit 1 and the accumulated signal feature quantity calculation unit 2 It is also possible to search for an acoustic signal by extracting features from the acoustic signal.
  • the signal detection system of the first embodiment includes a target signal feature amount calculation unit 1, an accumulated signal feature amount calculation unit 2, an objective signal histogram calculation unit 3, an accumulated signal histogram series calculation unit 4, , Accumulated signal histogram group selection section 5 and accumulated signal histogram group selection section 6
  • the accumulated signal collation unit 7 and the collation result output unit 8 are configured.
  • the signal detection system of the present invention inputs a target signal, that is, a signal that includes a signal to be searched as a sample, and a stored signal, that is, a signal to be searched, as a part of the target signal. Output the location in the accumulated signal where the similarity to the value exceeds a preset value (this is called the search threshold) ⁇ .
  • the target signal feature amount calculation unit 1 derives a feature amount series from the input target signal.
  • the accumulated signal feature quantity calculation unit 2 derives a feature quantity series from the inputted accumulated signal.
  • the target signal histogram calculation unit 3 sets an attention window of a certain length in the feature amount series derived by the target signal feature amount calculation unit 1, and calculates a histogram of the feature amount in the attention window. .
  • the accumulated signal histogram series calculation unit 4 sequentially sets a certain length of attention window for each part of a size corresponding to the attention window in the feature amount series derived by the accumulation signal feature amount calculation unit 2. Then, a histogram sequence is obtained by calculating a histogram of the feature amount in the window of interest.
  • the accumulated signal histogram grouping unit 5 in the histogram sequence obtained by the accumulated signal histogram sequence calculating unit 4 calculates the degree of similarity calculated with a predetermined L1 distance measure (for example, described later) Similar values are grouped together by grouping together histograms that meet a predetermined criterion.
  • the accumulated signal histogram group selection unit 6 determines whether or not there is a possibility that a portion to be output is included from the histogram groups obtained by the accumulated signal histogram grouping unit 5. Select a histogram group.
  • the accumulated signal collating unit 7 collates the histograms belonging to the histogram group selected in the accumulated signal histogram group selection process with the predetermined distance measure to obtain a similarity value.
  • the collation result output means 8 determines whether or not the collation location should be output as a detection result based on the similarity value obtained in the accumulated signal collation process. Output.
  • the target signal feature amount calculation unit 1 reads a given predetermined target signal. Then, the target signal feature quantity calculation unit 1 performs feature extraction on the read target signal.
  • the video feature of the video input as the target signal is used as the feature to be extracted.
  • an image of one frame of video is divided into a total of 12 equal parts, 4 in the horizontal direction and 3 in the vertical direction, and the RGB value in each of the divisions is used as a feature to obtain a total 36-dimensional feature vector.
  • the video feature x (p) is expressed by the following equation (3).
  • Equation (3) c represents one of r (red), g (green), and b (blue), and j represents any integer from 1 to the division number W.
  • X is a normalized RGB value.
  • Ii (p) is a set of pixels fitted to the i-th divided image, and i represents any integer from 1 to the number of divisions W.
  • I ⁇ represents the number of elements in the set
  • I Ii (p) I is the number of pixels included in the i-th divided image
  • y (p) represents the color value of color c at pixel q .
  • the accumulated signal feature quantity calculation unit 2 first reads the accumulated signal.
  • the accumulated signal feature quantity calculation unit 2 performs feature extraction on the read accumulated signal.
  • the feature extraction in the accumulated signal feature quantity calculation unit 2 is performed by the same process as the feature extraction of the target signal feature quantity calculation unit 1 already described.
  • the target signal histogram calculation unit 3 reads a series of feature vectors output from the target signal feature amount calculation unit 1.
  • the target signal histogram calculation unit 3 sets a window of interest for the input feature vector series.
  • the length of the window of interest is D.
  • the target signal histogram calculation unit 3 creates a feature vector histogram from the feature vectors in the window of interest.
  • the target vector histogram calculation unit 3 receives a feature vector to be quantized (step 1)
  • the target signal histogram calculation unit 3 refers to a codebook created in advance to search for which representative vector is closest.
  • Step 2 the nearest representative vector found is output as a result of quantizing the input feature vector (Step 3).
  • the above codebook is created by preparing learning vectors (Step 1), classifying learning vectors using a well-known clustering algorithm such as the LBG (Linde-Buzo-Gray) algorithm (Step 2), In each classification, the center of gravity can be used as a representative vector, and this set of representative vectors can be used as a codebook.
  • a well-known clustering algorithm such as the LBG (Linde-Buzo-Gray) algorithm
  • the target signal histogram calculation unit 3 counts the number of feature vectors for each feature vector classified by the above-described processing. Thus, a histogram of feature vectors is created.
  • the histogram obtained for the target signal is H (R) .
  • R is a subscript indicating that the histogram is also created by the feature vector force of the target signal.
  • the accumulated signal histogram series calculation unit 4 first reads a feature vector series that also outputs the accumulated signal feature value calculation unit 2.
  • the accumulated signal histogram series calculation unit 4 sets a window of interest in the same manner as the target signal histogram calculation unit 3 for the feature vector series read in time series.
  • the length of the eye window is the same as the target window set for the target signal by the target signal histogram calculation unit 3 (ie, D).
  • the accumulated signal histogram sequence calculation unit 4 sequentially creates a histogram while shifting the attention window one by one for each feature vector from the beginning of the sequence of accumulated features of the accumulated signal. Get the histogram series in S2 of 2.
  • the accumulated signal histogram series calculation unit 4 performs the process of creating each histogram by the same process as the generation of the histogram in the target signal histogram calculation unit 3. That is, the accumulated signal histogram series calculation unit 4 classifies the sequentially input feature vectors by the same vector quantization method as the target signal histogram calculation unit 3, and the number of feature vectors for each classification. A histogram of feature vectors is created by counting.
  • the accumulated signal histogram grouping unit 5 reads the accumulated signal histogram series output from the accumulated signal histogram series calculating unit 4.
  • the accumulated signal histogram grouping unit 5 groups each portion of the accumulated signal histogram series measured with a predetermined distance scale (L1 scale) as a group where the mutual similarity value is a certain level or more.
  • Local grouping focuses on local similarities often found in sound and video signals, such as similarities within the same shot of video signals.
  • the accumulated signal histogram grouping unit 5 performs grouping. Increase (Al) i by one.
  • S ( ⁇ is calculated by the following equation (5). This is the similarity between H (s) and C (U 's representative histogram feature H (U (the distance is small ! / ⁇ and having a high similarity value are equivalent).
  • the above equation (5) is for obtaining the distance between the histograms H (s) and H (U ) by, for example, the histogram overlap rate.
  • the accumulated signal histogram group selection unit 6 reads the target signal histogram output from the target signal histogram calculation unit 3.
  • the accumulated signal histogram group selection unit 6 reads the accumulated signal histogram group output from the accumulated signal histogram grouping unit 5, and displays the representative histogram feature of each group and a preset similarity threshold. Select only the histogram groups that you need to browse and match.
  • the stored signal histogram group selection unit 6 may select a histogram group that exceeds a preset similarity threshold from among the input histogram groups and include a portion to be output. Is output.
  • the accumulated signal matching unit 7 calculates, for only the accumulated signal histogram group selected by the accumulated signal histogram group selecting unit 6, the similarity value between the accumulated signal histogram feature belonging to the group and the target signal histogram. To do.
  • the similarity measure is defined as similarity S by the following equation (8) when L1 distance is used.
  • H (R) and H (s) are the target signal histogram and accumulated signal histogram, respectively, and D is the length of the window of interest.
  • the accumulated signal matching unit 7 detects a location where the similarity S is greater than the set search threshold ⁇ , the accumulated signal matching unit 7 determines that the target signal is detected at the location of the accumulated signal.
  • the collation result output unit 8 inputs the information of the location output from the accumulated signal collation unit 7 where the threshold value with the target signal is equal to or greater than the set threshold value, and arranges it in an output format according to the purpose. , Actually output as search results.
  • attached information such as the date and time when the video was recorded and the title given to the video can be considered.
  • the attached information previously stored in association with the accumulated signal is stored in a storage unit or the like inside the collation result output unit 8.
  • the second embodiment is similar in configuration to the first embodiment.
  • the second embodiment differs from the first embodiment in that the stored signal histogram grouping unit 5 performs these local groupings after performing the local grouping shown in S4 of FIG. This is a point where the group is further grouped and a global grouping is performed.
  • the global grouping performed in the accumulated signal histogram grouping unit 5 will be described.
  • a group is created in which the similarity between all elements in the group and the representative histogram feature of the group is greater than a threshold value of ⁇ (G) .
  • G of 0 (G) indicates that it is a threshold used for global grouping.
  • This threshold ⁇ (G) is based on the lower limit of L1 distance (upper limit of similarity ) in global groupies.
  • Such a group C (G) is stored in the stored signal histogram dull k by the following procedure, for example.
  • the unit 5 can perform grouping.
  • the accumulated signal histogram grouping unit 5 outputs the obtained accumulated histogram group to the accumulated signal histogram group selecting unit 6.
  • the subsequent processing is the same as in the first embodiment.
  • the third embodiment shown in FIG. 4 of the present invention has the same configuration as that of the first and second embodiments shown in FIG. 1, but differs from the accumulated signal histogram series calculation unit 4 in the configuration.
  • the storage signal histogram thinning unit 9 is further provided between the storage signal histogram grouping unit 5 and the storage signal histogram grouping unit 5.
  • the number of histograms used for grouping histograms can be reduced from 50 to 1.
  • the accumulated signal histogram grouping unit 5 reads the accumulated signal histogram series output from the accumulated signal histogram thinning unit 9.
  • a second search threshold value ⁇ "slightly lower than the search threshold value ⁇ set by force is set by the following equation (10). Yes.
  • 0 ′ is defined by the following formula (11).
  • Equation 11 [0050] In the above equation (11), M is a thinning number.
  • the accumulated signal histogram grouping unit 5 outputs the obtained accumulated histogram group to the accumulated signal histogram group selecting unit 6.
  • the accumulated signal histogram grouping unit 5 when performing global grouping, derives a third threshold value shown below when thinning out histogram series. It will be a person.
  • the search result can guarantee exactly the same result as when the accumulated signal histogram decimation is not performed, which is the third embodiment of the present invention.
  • the example has become a feature.
  • collation is performed again in the state where the histogram is not thinned before and after the detected location within the range of the thinning width. This eliminates both search omissions and extra detections. Output can be obtained.
  • FIG. 5 shows an operation experiment example of the signal detection system according to the present invention.
  • the length of the stored signal as the video signal is 150 hours, and the NTSC format video signal compressed at the frame rate of 29.97frames / s and compressed in the MPEG-2 compression format is stored and stored. Signal.
  • the video signal has a screen size of 704 X 480 pixels.
  • the table in Fig. 5 shows the average CPU time required for these search processes for the 10 target signals!
  • TAS time-series active search method
  • the search can be performed 10 times or more faster than “TAS”.
  • the storage capacity of one histogram is 512 bytes
  • the power of local grouping seems to be small.
  • V the number of histogram features must be taken into account when local grouping is not performed. It was found that the amount of computation required for global grouping was reduced by reducing ij to 348546.
  • the “computer system” here includes the OS and hardware such as peripheral devices.
  • “Computer system” includes a WWW system equipped with a homepage provision environment (or display environment).
  • the “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” means a volatile memory (RAM) inside a computer system that becomes a server or a client when a program is transmitted via a communication line such as a network such as the Internet or a telephone line. In this way, the program is held for a certain period of time.
  • RAM volatile memory
  • the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium.
  • the “transmission medium” for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
  • the program may be for realizing a part of the functions described above.
  • a so-called differential file may be used.
  • the present invention for example, for the purpose of appropriately managing the use of music on the Internet, is based on the acoustic signal of the target music that has been registered in advance. It can be used in a technique for detecting a signal file.
  • the present invention can also be applied to video signal detection for the purpose of managing video information on the Internet in addition to the above-described acoustic signals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明の信号検出システムは、目的信号から特徴量系列を導く目的信号特徴量計算部と、蓄積信号から特徴量系列を導く蓄積信号特徴量計算部と、目的信号の特徴量系列において、特徴量のヒストグラムを求める目的信号ヒストグラム計算部と、蓄積信号の特徴量系列において、特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算部と、類似度が基準を満たすヒストグラム系列をグループ化する蓄積信号ヒストグラムグループ化部と、ヒストグラムグループから出力箇所が含まれるものを選択する蓄積信号ヒストグラムグループ選択部と、ヒストグラムグループのヒストグラムに対して照合を行い、類似度値を得る蓄積信号照合部と、類似度値により照合箇所を検出結果として出力する照合結果出力部とを備える。

Description

信号検出方法,信号検出システム,信号検出処理プログラム及びそのプ ログラムを記録した記録媒体
技術分野
[0001] 本発明は、蓄積された信号系列の中から所定の信号、またはその一部に類似した 信号を探索して検出する信号検出方法に関するものであり、例えば音響信号検出に 適用可能である。
本願は、 2004年 7月 15日に出願された特願 2004— 209088号に基づき優先権 を主張し、その内容をここに援用する。
背景技術
[0002] 従来、信号検出方法に関しては、蓄積信号中で目的信号に類似した箇所を検出 することを目的とした信号検索方法が知られて ヽる (例えば、特許文献 1の「高速信 号探索方法、装置およびその記録媒体」参照)。
しかし、この特許文献 1の方法においては、局所的な枝刈り (照合すべき箇所の候 補を,照合を行うことなく排除することを枝刈りと呼ぶ)のみを用いていたため、膨大な 蓄積信号を対象とする場合には、検索に長時間を要するという欠点があった。
[0003] また、他の信号検出方法に関しては、特徴ベクトル間の類似度を測定するため、ュ ークリツド距離としての L2距離を用いた大局的な枝刈りによる信号検索方法が知られ ている(例えば、特許文献 2の「信号検出方法,信号検出装置,記録媒体及びプログ ラム」参照)。
ここで、 L2距離 dは以下に示す(1)式等により通常定義される。(1)式において特
2
徴ベクトルを X, Yとすると、 Χ= (χ , · ··, X ) , Y= (y , · ··, y )となる。
I N I N
[0004] [数 1] d2(X, Y);; Jf i y, )2 · · · M
[0005] しかし、この特許文献 2の方法では、大局的な枝刈りに L1距離尺度を用いる方法が 明らかでな力つたため、 L2距離に比べて精度が高い場合の多い LI距離のみに基づ く探索を行えな ヽと 、う欠点があった。
ここで、後に詳細に説明するが、本発明で用いる L1距離 dとは上記特徴ベクトルに おいて、 Xと yとの差の 1乗に基づく距離であり、以下の(2)式により定義される。
[0006] [数 2]
Figure imgf000004_0001
特許文献 1 :特開 2000— 312343号公報
特許文献 2:特許第 3574075号
発明の開示
発明が解決しょうとする課題
[0007] 本発明はこのような事情に鑑みて、従来の技術の欠点を解決するためになされたも のであり、上述した従来技術の特許文献 1の方法と同等な探索精度を保証し、これら 従来技術に比較し、より高速な信号検出の処理手段を提供することを目的としている 課題を解決するための手段
[0008] 上記目的を達成するために、本発明の信号検出システムは、蓄積されている蓄積 信号から、目的信号に類似した信号を検出するシステムであって、目的信号から特 徴量系列を導く目的信号特徴量計算部と、蓄積信号力 特徴量系列を導く蓄積信 号特徴量計算部と、前記目的信号特徴量計算部にて導かれた特徴量系列において 所定の注目窓を設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒス トグラム計算部と、前記蓄積信号特徴量計算部にて導かれた特徴量系列において、 所定の注目窓を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目 窓内の特徴量のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒス トグラム系列計算部と、前記蓄積信号ヒストグラム系列計算部にて得られたヒストグラ ム系列において、所定の L1距離尺度で計算した相互の類似度合いが、所定の基準 を満たすヒストグラム系列同士をグループ化する蓄積信号ヒストグラムグループ化部と 、前記蓄積信号ヒストグラムグループィ匕部で得られたヒストグラムグループのうちで、 出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する蓄 積信号ヒストグラムグループ選択部と、前記蓄積信号ヒストグラムグループ選択部に て選択されたヒストグラムグループに属するヒストグラムに対し、前記所定の L1距離尺 度による照合を行い、類似度値を得る蓄積信号照合部と、前記蓄積信号照合部にて 得られた類似度値により、該照合箇所を検出結果とするか否かを判定し、検出結果と すると判定した場合、照合箇所を出力する照合結果出力部とを備える。
[0009] この構成により、本発明は、特許文献 1の方法と同一の検索精度を保証しつつ、目 的信号が与えられて力 検索結果が得られるまでの時間 (探索時間)を、特許文献 1 に比較して短縮することができる。
また、本発明は、大局的枝刈り操作における距離尺度において、特許文献 2の L2 尺度を用いずに、新たに L1距離を用いた尺度を採用して、特許文献 1の方法と同一 の検索精度を保証できる。
さらに、本発明における蓄積信号ヒストグラムグループィ匕部において、グループィ匕 する際の閾値として、予め設定される L1距離の限界値を用いてもよい。これにより、 L 1距離に基づく全探索と同一の精度を保証することができる。
本発明においては、さら〖こ、蓄積信号ヒストグラム間引き部を具備してもよい。これ により、精度を損なうことなぐより高速な検索が実現できる。
発明の効果
[0010] 以上説明したように、本発明によれば、 L1距離に基づいて、大局的グループ化お よび局所的グループィ匕を行い、探索空間を効率的に絞り込むことによって、既に示し た先行技術 (特許文献 1及び特許文献 2)の方法に比較し、探索精度を保ちつつ、高 速に効果的な部分信号検出ができるという利点がある。
図面の簡単な説明
[0011] [図 1]図 1は、本発明の第 1 (及び第 2の実施例)による信号検出システムの構成例を 示すブロック図である。
[図 2]図 2は、本発明の第 1,第 2及び第 3の実施例による信号検出方法の処理の流 れを示す概念図である。 [図 3]図 3は、本発明の第 1,第 2及び第 3の実施例による信号検出方法の処理の流 れを示す概念図である。
[図 4]図 4は、本発明の第 3の実施例による信号検出システムの構成例を示すブロッ ク図である。
[図 5]図 5は、本発明の第 1,第 2及び第 3の実施例による信号検出方法の処理による 検出結果を、従来例のシステムの検出結果と比較したテーブルである。
符号の説明
1 目的信号特徴量計算部
2 蓄積信号特徴量計算部
3 目的信号ヒストグラム計算部
4 蓄積信号ヒストグラム系列計算部
5 蓄積信号ヒストグラムグループィ匕部
6 蓄積信号ヒストグラムグループ選択部
7 蓄積信号照合部
8 照合結果出力部
9 蓄積信号ヒストグラム間弓 1き部
発明を実施するための最良の形態
[0013] <第 1の実施例 >
次に、本発明の一実施例について図面を用いて説明する。
図 1は、本発明方法を適用した信号検出システムの第 1の実施例を示すブロック図 である。
なお、以下では主に映像信号を対象とする装置について説明するが、下記と同一 の構成において、目的信号特徴量計算部 1および蓄積信号特徴量計算部 2におい て、目的信号及び蓄積信号としての音響信号カゝら特徴抽出を行うことにより、音響信 号の探索を行うことも可能である。
[0014] 本第 1の実施例の信号検出システムは、目的信号特徴量計算部 1と、蓄積信号特 徴量計算部 2と、目的信号ヒストグラム計算部 3と、蓄積信号ヒストグラム系列計算部 4 と、蓄積信号ヒストグラムグループィ匕部 5と、蓄積信号ヒストグラムグループ選択部 6と 、蓄積信号照合部 7と、照合結果出力部 8と、で構成されている。
すなわち、上述した構成により、本発明の信号検出システムは、目的信号すなわち 見本である検索する信号をその一部として含む信号と、蓄積信号すなわち検索され る信号とを入力し、目的信号のある一部分との類似度が、あらかじめ設定した値 (これ を探索閾値という) Θを超える蓄積信号における箇所を出力する。
[0015] 目的信号特徴量計算部 1は、入力される目的信号から特徴量系列を導く。
そして、蓄積信号特徴量計算部 2は、入力される蓄積信号から特徴量系列を導く。 次に、目的信号ヒストグラム計算部 3は、上記目的信号特徴量計算部 1が導いた特 徴量系列において、ある長さの注目窓を設定し、該注目窓内の特徴量のヒストグラム を計算する。
また、蓄積信号ヒストグラム系列計算部 4は、上記蓄積信号特徴量計算部 2が導い た特徴量系列において、ある長さの注目窓を、この注目窓に対応するサイズの各部 分に対して順次設定し、該注目窓内の特徴量のヒストグラムを計算することでヒストグ ラム系列を得る。
[0016] そして、蓄積信号ヒストグラムグループィ匕部 5は、上記蓄積信号ヒストグラム系列計 算部 4により得られたヒストグラム系列において、所定の L1距離尺度で計算した相互 の類似度合い (例えば、後に説明する類似値)が、所定の基準を満たすヒストグラムど うしをまとめることでグループィ匕する。
次に、蓄積信号ヒストグラムグループ選択部 6は、上記蓄積信号ヒストグラムグルー プ化部 5により得られたヒストグラムグループの中から、出力すべき箇所が含まれる可 能性の有無を判定し、可能性があるヒストグラムグループを選択する。
蓄積信号照合部 7は、上記蓄積信号ヒストグラムグループ選択過程で選択されたヒ ストグラムグループに属するヒストグラムに対して前記所定の距離尺度による照合を 行い類似度値を得る。
照合結果出力手段 8は、上記蓄積信号照合過程で得られた類似度値をもとに、該 照合箇所を検出結果として出力すべきか否かを判定し、出力すべきものである場合 にはこれを出力する。
[0017] 次に、図 1を参照して第 1の実施例による信号検出システムの動作を説明する。 目的信号特徴量計算部 1は、与えられた所定の目的信号を読み込む。 そして、目的信号特徴量計算部 1は、読み込んだ目的信号に対して特徴抽出を行 本第 1の実施例においては、抽出する特徴として、目的信号として入力される映像 の映像特徴を用いる。
この映像特徴としては、離散コサイン変換に基づくものをはじめ、様々なものが適用 できるが、本第 1の実施例では色特徴を用いることとする。
[0018] すなわち、映像の 1フレームの画像を横 4等分、縦 3等分の計 12分割し、それぞれ の分割内での RGB値を特徴として、計 36次元特徴ベクトルとする。
pがフレーム番号を示し、 Wが分割数 (ここでは 12)を示すとすると、映像特徴 x(p) は以下の(3)式により表される。
[0019] [数 3] x(P); {Xir( }.Xi<l{p}.x1i;,(P) . xic(P> "- x.'.,T(p).x.,¾.:,g(p)'x.,,t,(p) ■ · '
[0020] (3)式において、 cは r (赤), g (緑), b (青)のいずれかを示し、 jは 1から分割数 Wまで の整数のいずれかを示す。また、 Xは正規ィ匕された RGB値であり、以下の(4)式に
jc
より定義される。
[0021] 画 yic(p) minyi5{p)
X|(.(p) = '■ =
max vic(p) mtnyic(p) yK(P) ∑y(l,(p) . . . :· に'
[0022] この(4)式において、 Ii(p)は i番目の分割画像に合まれる画素の集合であり、 iは 1か ら分割数 Wまでの整数のいずれかを示す。また、 I ·|は集合の要素数を表し、 I Ii(p) Iは i番目の分割画像に含まれる画素数であり、 y (p)が画素 qにおける色 cのカラー 値を表している。
次に、蓄積信号特徴量計算部 2は、はじめに、蓄積信号を読み込む。
そして、蓄積信号特徴量計算部 2は、読み込んだ蓄積信号に対して特徴抽出を行 う。この蓄積信号特徴量計算部 2における特徴抽出は、既に説明した目的信号特徴 量計算部 1の特徴抽出と同様の処理により行われる。
[0023] 次に、 目的信号ヒストグラム計算部 3は、 目的信号特徴量計算部 1が出力する特徴 ベクトルの系列を読み込む。
そして、 目的信号ヒストグラム計算部 3は、入力した特徴ベクトルの系列に対して、 注目窓を設定する。
本第 1の実施例においては、上記注目窓の長さを Dとする。
次に、 目的信号ヒストグラム計算部 3は、注目窓内の特徴ベクトルから、特徴べタト ルのヒストグラムを作成する。
[0024] すなわち、 目的信号ヒストグラム計算部 3は、量子化対象の特徴ベクトルが入力され ると (ステップ 1)、予め作成されたコードブックを参照して、どの代表ベクトルに最も近 いかを検索し (ステップ 2)、検索された最も近い代表ベクトルを、入力された特徴べク トルを量子化した結果として出力する (ステップ 3)。
なお、上記コードブックの作成は、学習用ベクトルを用意し (ステップ 1)、公知のクラ スタリングアルゴリズム例えば、 LBG (Linde-Buzo-Gray)アルゴリズムにより学習用べ タトルを分類し (ステップ 2)、それぞれの分類において重心を代表ベクトルとし、この 代表ベクトルの集合をコードブックとすることにより可能である。
[0025] そして、 目的信号ヒストグラム計算部 3は、図 2の S2に示すように、上述した処理に より分類された特徴ベクトルに対し、それぞれの分類にっ 、ての特徴ベクトルの個数 を数えることにより、特徴ベクトルのヒストグラムを作成する。
ここで、 目的信号ヒストグラム計算部 3において、 目的信号について得られたヒストグ ラムを H(R)とする。
ただし、 Rはヒストグラムが目的信号の特徴ベクトル力も作られたものであることを表 す添え字である。
[0026] 次に、蓄積信号ヒストグラム系列計算部 4は、はじめに、蓄積信号特徴量計算部 2 力も出力される特徴ベクトルの系列を読み込む。
そして、蓄積信号ヒストグラム系列計算部 4は、時系列に読み込まれる特徴ベクトル の系列に対して、 目的信号ヒストグラム計算部 3と同様に注目窓を設定する。この注 目窓の長さは、 目的信号ヒストグラム計算部 3が目的信号に対して設定した注目窓と 同一の長さ(すなわち、 D)とする。
そして、蓄積信号ヒストグラム系列計算部 4は、蓄積信号の特徴べ外ルの系列にお いて、系列の先頭から、特徴ベクトル毎に 1つずつ注目窓をずらしながら、順次ヒスト グラムを作成し、図 2の S2におけるヒストグラムの系列を得る。
[0027] ここで、蓄積信号ヒストグラム系列計算部 4は、各ヒストグラムの作成の処理を、上記 目的信号ヒストグラム計算部 3におけるヒストグラムの生成と同様の処理により行う。 すなわち、蓄積信号ヒストグラム系列計算部 4は、順次入力されてくる特徴ベクトル を、 目的信号ヒストグラム計算部 3と同様のベクトル量子化の手法によって分類し、そ れぞれの分類についての特徴ベクトルの個数を数えることにより、特徴ベクトルのヒス トグラムを作成する。
[0028] 次に、蓄積信号ヒストグラムグループ化部 5は、蓄積信号ヒストグラム系列計算部 4 力 出力される蓄積信号ヒストグラム系列を読み込む。
そして、蓄積信号ヒストグラムグループィ匕部 5は、所定の距離尺度 (L1尺度)で測定 した蓄積信号ヒストグラム系列の各部分にっ 、て、相互の類似度値が一定以上であ る箇所をグループとしてまとめて 、く。
これは、以下に説明する局所的グループ化 (本実施例である第 1の実施例)および 大局的グループ化 (後に説明する第 2の実施例)の 2種類のうちの少なくともいずれ かを行うことで実現できる。
まず、局所的グループィ匕について説明する。局所的グループ化は、映像信号の同 一ショット内での類似性のように、音や映像の信号によく見られる局所的な類似性に 着目したものである。
蓄積信号ヒストグラム系列計算部 4から出力される,蓄積信号ヒストグラムを H (s) (i= 1, · ··, I)とし、局所的グループ化におけるヒストグラムグループを C (U(j = l, 2, - - -J )とする。
初期状態は i= l, j = l, J= l, C (Uがただ 1つのメンバー H (s)をもつ状態である。
[0029] 以下に示す手順により、蓄積信号ヒストグラムグループィ匕部 5がグループィ匕を行うこ とがでさる。 (Al)iを 1つ増加させる。
(A2)例えば、以下に示す (5)式により、 S を計算する。これは H(s)と、 C(Uの代表ヒ ストグラム特徴 H (Uとの類似度である (距離が小さ!/ヽことと類似度値が高 ヽこととは等 価である)。
[0030] [数 5] に S(H ,H ' 丄〉 min(h,n,h ) ... に
[0031] 上記(5)式は、例えば、ヒストグラム重なり率により、ヒストグラム H(s)と H(Uとの距離を 求めるものである。
この式にぉ 、て、ヒストグラム系列 H (S)及び H (Uは以下に示す (6)式の様に定義さ れる。
[0032] 園
H;s : ' '― ' ."·.. )
H ': ( '…… h;:,'…… ') · · '
[0033] (A3)もし、 S (L)> Θ (Uであれば、 H(s)を、 C(Uの要素に加える。ここで、閾値 Θ の は局所的グループィ匕に対して用いる閾値であることを示している。この閾値 Q (uは、 局所的グループィ匕における L1距離の下限値 (類似度の上限値)に基づくものである 一方、 S (U≤ Θ (Uであれば、新しい蓄積信号ヒストグラム特徴グループを作り、ヒスト グラム系列 H(S)をその代表ヒストグラム特徴とし、 jおよび Jを 1つ増カロさせる。
(A4)i≠Iであれば、上記 (A1)の処理に戻る。
この手順にぉ 、て、 C (Uの最初の要素 H (s)が C (Uの代表ヒストグラム H となる。す なわち、各 C(Uに含まれるすべての H(s)について、次の(7)式が成り立つ。
[0034] [数 7]
S(H ,H: S(H Η S
i m(j) '- mir σ [0035] そして、蓄積信号ヒストグラムグループ選択部 6は、 目的信号ヒストグラム計算部 3か ら出力された目的信号ヒストグラムを読み込む。
次に、蓄積信号ヒストグラムグループ選択部 6は、蓄積信号ヒストグラムグループ化 部 5から出力された、蓄積信号ヒストグラムグループを読み込み、それぞれのグルー プの代表ヒストグラム特徴と、予め設定された類似度閾値とを参照し、照合する必要 のあるヒストグラムグループのみを選択する。
すなわち、蓄積信号ヒストグラムグループ選択部 6は、入力されるヒストグラムグルー プの中から、予め設定された類似閾値を超えるヒストグラムグループがあるものを選 択し、出力すべき箇所が含まれる可能性があると判定して出力する。
[0036] 蓄積信号照合部 7は、蓄積信号ヒストグラムグループ選択部 6により選択された蓄積 信号ヒストグラムグループのみに対して、そのグループに属する蓄積信号ヒストグラム 特徴と、 目的信号ヒストグラムとの類似度値を計算する。類似度尺度は、 L1距離を用 いる場合、以下に示す (8)式により、類似度 Sとして定義される。
[0037] [数 8]
S(H'Ri ,H ひ,,, h ) · · · :
[0038] 上記(8)式において、図 3に示すように、 H(R)と H(s)とはそれぞれ目的信号ヒストグラ ムと蓄積信号ヒストグラムであり、 Dは注目窓の長さである。
そして、蓄積信号照合部 7は、類似度 Sが設定された探索閾値 Θよりも大きい箇所 を検出すると、蓄積信号の当該箇所に目的信号が検出されたものと判定する。 次に、照合結果出力部 8は、蓄積信号照合部 7から出力された、 目的信号との閾値 が設定した閾値以上となる箇所の情報を入力し、 目的に応じた出力形式に整えた上 で、実際に検索結果として出力する。
上記目的に応じた出力形式としては、たとえば、映像が記録された日時や映像に つけられた題名などの添付情報が考えられる。
そして、上記添付情報は、あらかじめ蓄積信号と対応づけたものを、照合結果出力 部 8内部の記憶部等に格納しておく。
[0039] <第 2の実施例 > 次に、図 1を参照して、第 2の実施例の説明を行う。なお、第 2の実施例は、構成と して第 1の実施例と同様である。第 2の実施例が第 1の実施例と異なる点は、蓄積信 号ヒストグラムグループィ匕部 5が、図 2の S4に示す局所的グループィ匕を行った後、こ れらの局所的グループをさらにグループィ匕し、大局的グループィ匕を行う点である。 以下に、蓄積信号ヒストグラムグループ化部 5にお 、て行われる大局的グループィ匕 について説明する。
[0040] 大局的グループ化においては、グループ内の全ての要素と、そのグループの代表 ヒストグラム特徴との類似度が Θ (G)なる閾値よりも大きくなるようなグループを作る。ここ で、 0 (G)の Gは大局的グループィ匕に対して用いる閾値であることを示している。この 閾値 Θ (G)は、大局的グループィ匕における L1距離の下限値 (類似度の上限値)に基づ くものである。
このようなグループ C (G)は、たとえば、以下のような手順で蓄積信号ヒストグラムダル k
一プ化部 5がグループ化を行うことができる。
[0041] 上述した局所的グループィ匕にお 、て作成された局所的グループを C (U (j = l, · ··, J)とする。また、大局的グループ化の初期状態を j = l, J= (局所的グループ化で作 成された局所的グループの数)、大局的グループのインデックス k=0、大局的グル 一プの数 K=0とする。
(B1) C (Uの要素がまだどの大局的グループにも属していないようなものが見つ力るま で jを増加させる。
そして、そのような C (Uがあれば、 kを 1増加させ、新たな大局的グループ c (G)を作つ j k て κを増カロさせる。
これにより、 c(uの全ての要素を 要素に加える。
j c (G)
k
[0042] (B2) C (G)の代表ヒストグラム特徴 H (G)と、 C (L)(p=j + l,… の代表ヒストグラム特徴 k k p
H (Uとの距離 S (G)=S (H (U, H (G))を計算する。なお、 C (Uは、以下の式(9)を満たす
P pk p k p
[0043] [数 9] vq k (B3)もし、 S (G)> Θ (G)ならば、 C (L)の全ての要素を C (G)に加える。
pk p k
(B4)j≠Jであれば、処理 (Bl)に戻る。
[0044] そして、蓄積信号ヒストグラムグループィ匕部 5は、得られた蓄積ヒストグラムグループ を、蓄積信号ヒストグラムグループ選択部 6へ出力する。
後の処理は、第 1の実施例と同様である。
[0045] <第 3の実施例 >
次に、図 4を参照して第 3の実施例の説明を行う。なお、本発明の図 4に示す第 3の 実施例は、構成としては図 1に示す第 1及び第 2の実施例と同様の構成であり、異な る点として蓄積信号ヒストグラム系列計算部 4と蓄積信号ヒストグラムグループ化部 5と の間に、蓄積信号ヒストグラム間引き部 9をさらに設けることを特徴とする。
すなわち、第 1及び第 2の実施例で説明したように、図 2の S2における全ての特徴 ベクトルを用いるのではなぐ図 2の S3に示すように、特徴ベクトルを所定の数ずつず らしながら、すなわち間引きを行いヒストグラム系列を作成する。
たとえば、間引き数を M = 50とすると、ヒストグラムをグループィ匕する際に用いるヒス トグラムの数を、 50個から 1個に圧縮することができる。
このようにすると、ヒストグラム系列の記憶に必要な記憶装置の容量が 1ZMに削減 できるほか、検索の速度向上にも効果がある。
[0046] 蓄積信号ヒストグラムグループィ匕部 5は、蓄積信号ヒストグラム間引き部 9から出力さ れた、蓄積信号ヒストグラム系列を読み込む。
ここで、蓄積信号ヒストグラムグループ化部 5における計算には、あら力じめ設定し た探索閾値 Θよりもやや低い第 2の探索閾値 Θ "を、以下に示す(10)式により設定さ れている。
[0047] [数 10]
1)" - ()' (1 ()':L i ) · . · : I (
[0048] 上記(10)式において、 0 'は、以下の(11)式により定義される。
[0049] [数 11] [0050] 上記(11)式において、 Mは間引き数である。
この第 2の閾値を用いれば、もし局所的グループ C (Uに対し、目的信号のヒストグラ
j
ム H(R)と C (Uの代表ヒストグラム H (Uとの類似度 S (L)=S (H(R), H (U)において、 S (U
j j Rj j Rj
Θ "が成り立つならば、精度を失うことなぐ c (uの残りの要素についての照合計算を 省くことができる。
そして、蓄積信号ヒストグラムグループィ匕部 5は、得られる蓄積ヒストグラムグループ を蓄積信号ヒストグラムグループ選択部 6へ出力する。
[0051] そして、第 2の実施例にあるように、大局的グループィ匕を行う際、蓄積信号ヒストグラ ムグループィ匕部 5は、ヒストグラム系列の間引きを行う場合、以下に示す第 3の閾値を 導人することとなる。
このとき、下記に示す(12)式により定義する第 3の探索閾値 θ (τ)を導入すると、大 局的グループ C (G)に対し、目的信号のヒストグラム H(R)と C (G)の代表ヒストグラム H (G)
k k k の類似度 S (G)=S (H(R), H (G))において、もし S (G)≤ θ (T)であれば、 C (G)の残りの要
Rk k Rk k
素については照合をスキップしても、探索漏れを起こすことはないことが保証される。
[0052] [数 12]
.."·' >■' ( 1 1 ·'°' » . . . 1 1·
[0053] 他の処理は、第 1及び第 2の実施例の処理と同様である。
上述したように、蓄積信号ヒストグラム間引き部 9を設けた場合にも、検索結果は蓄 積信号ヒストグラム間引きを行わない場合と厳密に同一の結果を保証でき、その点が 本発明における第 3の実施例の著 、特徴となって 、る。
そして、本発明の第 3の実施例において、ヒストグラムの間引きを行った場合に、間 引きにより探索漏れを起こさないことが保証できているが、そのままでは余分な出力 が含まれる可能性がある。
そこで、間引き幅の範囲内で、検出された箇所の前後においてヒストグラムを間引 力ない状態での照合を改めて行う。これにより、探索漏れも余分な検出のいずれもな い出力を得ることができる。
[0054] <本発明の応用例 >
次に、本発明による信号検出システムの動作実験例を図 5に示す。
本発明の信号検出システムの効果を確認するため、映像信号を対象として、信号 検出の実験を行った。
ここで、映像信号としての蓄積信号の長さは 150時間とし、 NTSC形式の映像信号 を 29. 97frames/s のフレームレートにより、 MPEG— 2の圧縮形式により圧縮した ものを蓄積し、これを蓄積信号とした。
[0055] また、上記映像信号は画面サイズが 704 X 480画素とした。
そして、上記蓄積信号の中から、 7.5秒間の映像断片を無作為に選択し、これを目 的信号として、上記蓄積信号力 検素した。
実験において、目的信号の探索に用いる各閾値を、 Θ =0. 8, 0 L=O. 9, θ °=0 . 6 ;M/D=0. 1とした。
図 5のテーブルは、 10個の目的信号について、これらの探索処理に要した時間の 平均の CPU時間を示して!/、る。
[0056] 上記テーブルにお 、て、方法として「TAS」(時系列アクティブ検索法)と記載され ているものが特許文献 1の「高速信号探索方法、装置およびその記録媒体」における 信号検出方法である。
このように、上記「TAS」と同一の結果を得られる手法でありながら、「TAS」よりも 1 0倍以上高速な検索が可能となって 、る。
なお、ヒストグラム間引きを導入しなければ、ヒストグラム 1つの記憶容量が 512バイ トとするとき、 150時間分のヒストグラムの記憶容量は 8GB以上になりパーソナルコン ピュータ等での実現が困難となる力 M/D = 0. 1の設定により約 380MBにまで削 減される。
さらに、局所的グループ化の効果は小さいように見える力 大局的グループ化にお V、て考慮しなければならな 、ヒストグラム特徴の数を、局所的グループィ匕を行わな 、 場合の 808821力ら 348546まで肖 ij減し、大局的グループ化に必要な計算量を削減 したことがわかった。 [0057] なお、図 1における信号検出システムの機能を実現するためのプログラムをコンビュ ータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコ ンピュータシステムに読み込ませ、実行することにより、信号検出処理を行ってもよい 。なお、ここでいう「コンピュータシステム」とは、 OSや周辺機器等のハードウェアを含 むものとする。また、「コンピュータシステム」は、ホームページ提供環境 (あるいは表 示環境)を備えた WWWシステムも含むものとする。また、「コンピュータ読み取り可能 な記録媒体」とは、フレキシブルディスク、光磁気ディスク、 ROM, CD— ROM等の 可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをい う。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットヮー クゃ電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライ アントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プロ グラムを保持して 、るものも含むものとする。
[0058] また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシス テムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータ システムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インター ネット等のネットワーク (通信網)や電話回線等の通信回線 (通信線)のように情報を 伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一 部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステ ムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差 分ファイル (差分プログラム)であっても良 、。
産業上の利用可能性
[0059] 本発明は、例えば、インターネット上での音楽の使用を適正に管理する目的で、予 め登録した対象楽曲の音響信号をもとに、その一部が含まれているインターネット上 の音響信号ファイルを検出する技術に用いることが可能である。
また、本発明は、上述してきたような音響信号だけではなぐインターネット上での映 像情報の管理などを目的とした映像信号の検出にも応用可能である。

Claims

請求の範囲
[1] 蓄積されている蓄積信号から、 目的信号に類似した信号を検出するシステムであつ て、
目的信号から特徴量系列を導く目的信号特徴量計算部と、
蓄積信号から特徴量系列を導く蓄積信号特徴量計算部と、
前記目的信号特徴量計算部にて導かれた特徴量系列において所定の注目窓を設 定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算部と、 前記蓄積信号特徴量計算部にて導かれた特徴量系列において、所定の注目窓を 、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量の ヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計算 部と、
前記蓄積信号ヒストグラム系列計算部にて得られたヒストグラム系列において、所定 の L1距離尺度で計算した相互の類似度合 、が、所定の基準を満たすヒストグラム系 列同士をグループ化する蓄積信号ヒストグラムグループ化部と、
前記蓄積信号ヒストグラムグループィ匕部で得られたヒストグラムグループのうちで、 出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する蓄 積信号ヒストグラムグループ選択部と、
前記蓄積信号ヒストグラムグループ選択部にて選択されたヒストグラムグループに属 するヒストグラムに対し、前記所定の L1距離尺度による照合を行い、類似度値を得る 蓄積信号照合部と、
前記蓄積信号照合部にて得られた類似度値により、該照合箇所を検出結果とする か否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果出 力部と、
を備える信号検出システム。
[2] 請求項 1に記載の信号検出システムにお 、て、前記蓄積信号ヒストグラムグループ 化部は、ヒストグラムのグループィ匕を L1距離尺度の限界値に基づいて行う信号検出 システム。
[3] 請求項 1または請求項 2に記載の信号検出システムにおいて、前記蓄積信号ヒスト グラム系列計算部にて得られたヒストグラム系列において、ヒストグラムを間引く蓄積 信号ヒストグラム間引き部を備える信号検出システム。
[4] 請求項 1から請求項 3のいずれかに記載の信号検出システムにおいて、前記蓄積 信号ヒストグラムグループィ匕部が、
前記ヒストグラム系列における連続するヒストグラムについて相互の類似度合いが所 定の基準を満たすヒストグラム同士をグループィ匕する蓄積信号ヒストグラム局所ダル ープ化部、または
前記ヒストグラム系列における全てのヒストグラムについて相互の類似度合いが所 定の基準を満たすヒストグラム同士をグループィ匕する蓄積信号ヒストグラム大局ダル 一プ化部
の!ヽずれかを有する信号検出システム。
[5] 請求項 1から請求項 3のいずれかに記載の信号検出システムにおいて、前記蓄積 信号ヒストグラムグループィ匕部が、
前記ヒストグラム系列における連続するヒストグラムについて相互の類似度合いが所 定の基準を満たすヒストグラム同士をグループィ匕する蓄積信号ヒストグラム局所ダル ープ化部、および
前記ヒストグラム系列における全てのヒストグラムについて相互の類似度合いが所 定の基準を満たすヒストグラム同士をグループィ匕する蓄積信号ヒストグラム大局ダル 一プ化部
を有する信号検出システム。
[6] 蓄積されている蓄積信号から、目的信号に類似した信号を検出する方法であって、 目的信号から特徴量系列を導く目的信号特徴量計算過程と、
蓄積信号から特徴量系列を導く蓄積信号特徴量計算過程と、
前記目的信号特徴量計算過程にて導かれた特徴量系列にお!、て所定の注目窓を 設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算過 程と、
前記蓄積信号特徴量計算過程にて導かれた特徴量系列において、所定の注目窓 を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量 のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計 算過程と、
前記蓄積信号ヒストグラム系列計算過程にて得られたヒストグラム系列において、所 定の L1距離尺度で計算した相互の類似度合 、が、所定の基準を満たすヒストグラム 系列同士をグループ化する蓄積信号ヒストグラムグループ化過程と、
前記蓄積信号ヒストグラムグループィ匕過程で得られたヒストグラムグループのうちで
、出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する 蓄積信号ヒストグラムグループ選択過程と、
前記蓄積信号ヒストグラムグループ選択過程にて選択されたヒストグラムグループに 属するヒストグラムに対し、前記所定の L1距離尺度による照合を行い、類似度値を得 る蓄積信号照合過程と、
前記蓄積信号照合過程にて得られた類似度値により、該照合箇所を検出結果とす るか否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果 出力過程と、
を備えることを特徴とする信号検出方法。
[7] 請求項 6に記載の信号検出方法において、前記蓄積信号ヒストグラムグループィ匕 過程におけるヒストグラムのグループィ匕が L1距離尺度の上限値に基づいて行われる 信号検出方法。
[8] 請求項 6または請求項 7に記載の信号検出方法において、前記蓄積信号ヒストグラ ム系列計算過程にて得られたヒストグラム系列力 ヒストグラムを間引く蓄積信号ヒスト グラム間弓 Iき過程を備える信号検出方法。
[9] 蓄積されて!、る蓄積信号から、 目的信号に類似した信号の検出処理を実行するプ ログラムであり、
目的信号から特徴量系列を導く目的信号特徴量計算処理と、
蓄積信号から特徴量系列を導く蓄積信号特徴量計算処理と、
前記目的信号特徴量計算処理にて導かれた特徴量系列にお!、て所定の注目窓を 設定し、該注目窓内の特徴量のヒストグラムを計算する目的信号ヒストグラム計算処 理と、 前記蓄積信号特徴量計算過程処理導かれた特徴量系列において、所定の注目窓 を、該注目窓に対応するサイズの各部分に対して順次設定し、該注目窓内の特徴量 のヒストグラムを計算することによりヒストグラム系列を得る蓄積信号ヒストグラム系列計 算処理と、
前記蓄積信号ヒストグラム系列計算処理にて得られたヒストグラム系列において、所 定の L1距離尺度で計算した相互の類似度合 、が、所定の基準を満たすヒストグラム 系列同士をグループ化する蓄積信号ヒストグラムグループ化処理と、
前記蓄積信号ヒストグラムグループィ匕処理で得られたヒストグラムグループのうちで
、出力すべき箇所が含まれる可能性の有無を判定し、可能性のあるものを選択する 蓄積信号ヒストグラムグループ選択処理と、
前記蓄積信号ヒストグラムグループ選択処理にて選択されたヒストグラムグループに 属するヒストグラムに対し、前記所定の L1距離尺度による照合を行い、類似度値を得 る蓄積信号照合処理と、
前記蓄積信号照合処理にて得られた類似度値により、該照合箇所を検出結果とす るか否かを判定し、検出結果とすると判定した場合、照合箇所を出力する照合結果 出力処理と
をコンピュータに実行させるプログラム。
[10] 請求項 9に記載の信号検出処理を行うプログラムを記録したコンピュータ読み取り 可能な記録媒体。
PCT/JP2005/012921 2004-07-15 2005-07-13 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体 WO2006009035A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP05765727A EP1713059A4 (en) 2004-07-15 2005-07-13 SIGNAL DETECTION METHOD, SIGNAL DETECTION SYSTEM, SIGNAL DETECTION PROGRAM, AND RECORDING MEDIUM ON WHICH THE PROGRAM IS RECORDED
US10/588,182 US7653241B2 (en) 2004-07-15 2005-07-13 Signal detection method, signal detection system, signal detection processing program, and recording medium recorded with program thereof
JP2006524548A JP4447602B2 (ja) 2004-07-15 2005-07-13 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004209088 2004-07-15
JP2004-209088 2004-07-15

Publications (1)

Publication Number Publication Date
WO2006009035A1 true WO2006009035A1 (ja) 2006-01-26

Family

ID=35785150

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012921 WO2006009035A1 (ja) 2004-07-15 2005-07-13 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体

Country Status (5)

Country Link
US (1) US7653241B2 (ja)
EP (1) EP1713059A4 (ja)
JP (1) JP4447602B2 (ja)
CN (1) CN100592387C (ja)
WO (1) WO2006009035A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009092844A (ja) * 2007-10-05 2009-04-30 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2012018403A (ja) * 2011-08-01 2012-01-26 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2013070158A (ja) * 2011-09-21 2013-04-18 Kddi Corp 映像検索装置およびプログラム
JP2013142870A (ja) * 2012-01-12 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10580135B2 (en) 2016-07-14 2020-03-03 Shanghai United Imaging Healthcare Co., Ltd. System and method for splicing images

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003069934A (ja) * 2001-08-23 2003-03-07 Olympus Optical Co Ltd 記憶装置
EP1426899A2 (en) * 2002-12-06 2004-06-09 Nippon Telegraph and Telephone Corporation Method, device, program and recording medium for extracting signal features and for retrieving a signal

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3065314B1 (ja) 1998-06-01 2000-07-17 日本電信電話株式会社 高速信号探索方法、装置およびその記録媒体
DE1174804T1 (de) * 2000-07-21 2002-10-02 Lg Electronics Inc., Seoul/Soul Verfahren zum Suchen von Multimedia-Daten mit progressiven Histogrammen
JP3574075B2 (ja) 2001-02-07 2004-10-06 日本電信電話株式会社 信号検出方法、信号検出装置、記録媒体及びプログラム
US6865295B2 (en) * 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003069934A (ja) * 2001-08-23 2003-03-07 Olympus Optical Co Ltd 記憶装置
EP1426899A2 (en) * 2002-12-06 2004-06-09 Nippon Telegraph and Telephone Corporation Method, device, program and recording medium for extracting signal features and for retrieving a signal

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
KASHINO K. ET AL: "A Quick Search Algorithm for Acoustic Signals Using Histogram Features - Time Series Active Search", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J82-D-II, no. 9, 1 September 1999 (1999-09-01), pages 1365 - 1373, XP002997775 *
KASHINO K. ET AL: "Quick AND/OR Search for Multimedia Signals Based on Histogram Features", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J83-D-II, no. 12, 1 December 2000 (2000-12-01), pages 2735 - 2744, XP002997776 *
KIMURA S. ET AL: "A Quick Search Method for Multimedia Signals Using Global Pruning", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J85-D-II, no. 10, 1 October 2002 (2002-10-01), pages 1552 - 1562, XP002997772 *
KIMURA S. ET AL: "Quick searching of long audio signals using global pruning - accelerating Time-Series Active Search -", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU, vol. 100, no. 634, 16 February 2001 (2001-02-16), pages 53 - 60, XP002997773 *
KIMURA S. ET AL: "SPIRE: A Partial Image Identification Method Based on Sparse Indexing", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J88-D-II, no. 8, 1 August 2005 (2005-08-01), pages 1712 - 1719, XP002997774 *
See also references of EP1713059A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009092844A (ja) * 2007-10-05 2009-04-30 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2012018403A (ja) * 2011-08-01 2012-01-26 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2013070158A (ja) * 2011-09-21 2013-04-18 Kddi Corp 映像検索装置およびプログラム
JP2013142870A (ja) * 2012-01-12 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラム

Also Published As

Publication number Publication date
US7653241B2 (en) 2010-01-26
EP1713059A4 (en) 2012-07-04
CN100592387C (zh) 2010-02-24
JPWO2006009035A1 (ja) 2008-05-01
CN1910652A (zh) 2007-02-07
EP1713059A1 (en) 2006-10-18
JP4447602B2 (ja) 2010-04-07
US20070112728A1 (en) 2007-05-17

Similar Documents

Publication Publication Date Title
CN109359636B (zh) 视频分类方法、装置及服务器
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
US10915574B2 (en) Apparatus and method for recognizing person
JP4725690B2 (ja) 映像識別子抽出装置
US8358837B2 (en) Apparatus and methods for detecting adult videos
US20210012094A1 (en) Two-stage person searching method combining face and appearance features
US10534964B2 (en) Persistent feature descriptors for video
CN106601243B (zh) 一种视频文件识别方法及装置
WO2006051792A1 (ja) マッチング装置及び画像検索システム並びにヒストグラム近似復元装置、並びにマッチング方法及び画像検索方法並びにヒストグラム近似復元方法
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
KR100944903B1 (ko) 비디오 신호의 특징 추출 장치 및 그 추출 방법, 비디오인식 시스템 및 그 인식 방법
EP3239896B1 (en) Data structure for describing an image sequence, and methods for extracting and matching these data structures
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
WO2006009035A1 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
CN117251598A (zh) 视频检索方法
WO2009048696A1 (en) Local image descriptors using linear discriminant embedding
JP5644505B2 (ja) 照合加重情報抽出装置
CN109858328B (zh) 一种基于视频的人脸识别的方法及装置
CN111832351A (zh) 一种事件检测方法、装置和计算机设备
US9390347B2 (en) Recognition device, method, and computer program product
JP2013105393A (ja) 映像付加情報関係性学習装置、方法、及びプログラム
CN103646401B (zh) 基于时间梯度与空间梯度实现视频指纹提取的方法
JP2002044610A (ja) 信号検出方法、装置及びそのプログラム、記録媒体
Du et al. Mvss: Mobile visual search based on saliency
JP2009049667A (ja) 情報処理装置、その処理方法およびプログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 2006524548

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 200580002839.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2005765727

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007112728

Country of ref document: US

Ref document number: 10588182

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2005765727

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 10588182

Country of ref document: US