WO2009116582A1 - 動画検索装置および動画検索プログラム - Google Patents

動画検索装置および動画検索プログラム Download PDF

Info

Publication number
WO2009116582A1
WO2009116582A1 PCT/JP2009/055315 JP2009055315W WO2009116582A1 WO 2009116582 A1 WO2009116582 A1 WO 2009116582A1 JP 2009055315 W JP2009055315 W JP 2009055315W WO 2009116582 A1 WO2009116582 A1 WO 2009116582A1
Authority
WO
WIPO (PCT)
Prior art keywords
similarity
scene
audio signal
signal
scenes
Prior art date
Application number
PCT/JP2009/055315
Other languages
English (en)
French (fr)
Inventor
美紀 長谷山
Original Assignee
国立大学法人 北海道大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 北海道大学 filed Critical 国立大学法人 北海道大学
Priority to JP2010503907A priority Critical patent/JP5339303B2/ja
Priority to EP09721452.2A priority patent/EP2257057B1/en
Priority to US12/673,465 priority patent/US20110225196A1/en
Publication of WO2009116582A1 publication Critical patent/WO2009116582A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/748Hypervideo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Definitions

  • the present invention relates to a moving image search apparatus and a moving image search program for searching a scene similar to query moving image data from a plurality of moving image data.
  • Non-Patent Document 1 there is a method in which words based on sensibility are added to video / music as metadata and the similarity between video / music is calculated based on the relationship between words (see Non-Patent Document 1 and Non-Patent Document 2).
  • JP 2007-58258 A JP 2007-274233 A L. Lu D. Liu and H. J. Zhang, “Automatic Mood Detection and Tracking of Music Audio Signals,” IEEE Trans. Audio, Speech and Language Proceeding, vol. 14, no. 1, pp. 5-8, 2006.
  • T. Li and M. Ogihara “Toward Intelligent Music Information Retrieval,” IEEE Trans. Multimedia, Vol. 8, No. 3, pp. 564-574, 2006.
  • Patent Document 1 and Patent Document 2 described above are classification methods based only on image features. Therefore, even for a scene including a similar image, it is difficult to obtain a similar scene by grasping the sensitivity of the image.
  • Non-Patent Document 1 and Non-Patent Document 2 it is possible to search for similar scenes by grasping the sensibility of an image, but metadata must be assigned to each scene in advance. Therefore, it is difficult to cope with the case where a large amount of moving image data has to be classified with the recent increase in capacity of the database.
  • an object of the present invention is to provide a moving image search apparatus and a moving image search program for searching for a scene similar to a query scene of moving image data.
  • a first feature of the present invention relates to a moving image search apparatus that searches a scene similar to query moving image data from a moving image data scene. That is, the moving image search apparatus according to the first aspect of the present invention divides a moving image database including moving image data including query moving image data and a visual signal of the moving image data into shots, and outputs audio signals corresponding to the shots. For each scene divided by the scene division unit that outputs continuous shots with a small difference in feature amount as a scene, the video signal between scenes is calculated from the feature amount of the visual signal and the feature amount of the audio signal.
  • a video signal similarity calculation unit that calculates the similarity and generates video signal similarity data, and based on the video signal similarity data, each scene of the query moving image data and the similarity between the scenes from a certain threshold
  • a video signal similarity search unit for searching for a smaller scene.
  • a video signal similarity display unit that acquires and displays coordinates corresponding to the similarity for each scene searched by the video signal similarity search unit may be further provided.
  • the similarity of audio signals between scenes including the similarity based on the base sound of the audio signal, the similarity based on the instrument excluding the base, and the similarity based on the rhythm
  • An audio signal similarity calculation unit that calculates and generates audio signal similarity data, and each scene of the query video data based on the audio signal similarity data and a scene whose similarity between scenes is smaller than a certain threshold
  • an audio signal similarity search unit for searching for.
  • an audio signal similarity display unit that acquires and displays coordinates corresponding to the similarity for each scene searched by the audio signal similarity search unit may be further provided.
  • the scene division unit calculates the feature value data of each clip from the audio signal of the moving image data, calculates the probability of belonging to each audio class representing the type of sound of each clip, and the visual signal of the moving image data Is divided into shots, the fuzzy inference value of each shot is calculated from the probability of belonging to each audio class of a plurality of clips corresponding to the shot, and continuous shots with small differences in fuzzy inference values between adjacent shots Is output as a scene.
  • the video signal similarity calculating unit divides the scene into clips, and from the visual signal of each clip, based on the color histogram of a predetermined frame of the moving image of each clip
  • the clip is divided into audio signal frames, and each audio signal frame is classified into a voice frame and a background sound frame based on the energy and spectrum of each frame's audio signal.
  • the feature amount of the audio signal is calculated, and the similarity between the scenes is calculated based on the feature amount of the visual signal and the audio signal in clip units.
  • the audio signal similarity calculation unit obtains a base sound from the audio signal, calculates a power spectrum focusing on time and frequency, calculates a similarity based on the base sound for two arbitrary scenes, and calculates the base from the audio signal Calculate the energy of the frequency indicated by each pitch name for the sound having a higher frequency range than the sound, calculate the total energy difference for any two scenes, calculate the similarity based on the instrument excluding the base, The division of the high frequency component and the low frequency component of the audio signal is repeated a predetermined number of times using the two-divided filter bank, the envelope is detected from the signal containing the high frequency component, and the autocorrelation function is calculated. Based on this autocorrelation function, The similarity based on rhythm is calculated for any two scenes.
  • the second feature of the present invention relates to a moving image search apparatus that searches a scene similar to query moving image data from a moving image data scene. That is, the moving image search device according to the second aspect of the present invention divides a moving image database including moving image data including query moving image data and a visual signal of the moving image data into shots, and outputs audio signals corresponding to the shots. For each scene divided by the scene division unit that outputs continuous shots with a small difference in feature amount as a scene, the video signal between scenes is calculated from the feature amount of the visual signal and the feature amount of the audio signal.
  • a video signal similarity calculation unit that calculates similarity and generates video signal similarity data, and a similarity based on the base sound of the audio signal for each scene divided by the scene division unit, and an instrument excluding the base Audio signal similarity between scenes, including similarity based on rhythm and similarity based on rhythm
  • An audio signal similarity calculation unit for generating audio signal similarity data, and obtaining preference data which is a ratio of the preference to the video signal similarity and the audio signal similarity, and obtaining the video signal similarity data and the audio signal similarity Based on the data, the similarity between scenes calculated from the features of the visual signal and the audio signal, the similarity based on the bass sound of the audio signal, the similarity based on the instrument excluding the bass, and the rhythm Based on the similarity that is obtained by determining the weighting factor for the similarity based on each scene and multiplying the similarity for each scene by this weighting factor, the integrated similarity between scenes is less than a certain threshold
  • a search unit for searching for a scene, and coordinates
  • the third feature of the present invention relates to a moving image search program for searching a scene similar to query moving image data from moving image data scenes. That is, the moving image search program according to the third feature of the present invention divides a query moving image data and a visual signal of moving image data stored in a moving image database into shots, and features of audio signals corresponding to the shots.
  • Scene segmentation means for outputting continuous shots with small differences as scenes, and for each scene segmented by the scene segmentation means, the similarity of the video signal between the scenes based on the visual signal features and audio signal features
  • the video signal similarity calculation means for calculating the video signal similarity data, and the scenes of the query video data based on the video signal similarity data and the similarity between the scenes are smaller than a certain threshold It functions as a video signal similarity search means for searching for a scene.
  • the computer may further function as video signal similarity display means for acquiring and displaying coordinates corresponding to the similarity for each scene searched by the video signal similarity search means.
  • the similarity of the audio signal between scenes including the similarity based on the base sound of the audio signal, the similarity based on the instrument excluding the base, and the similarity based on the rhythm
  • An audio signal similarity calculating unit that calculates and generates audio signal similarity data, and each scene of the query moving image data based on the audio signal similarity data and a scene in which the similarity between scenes is smaller than a certain threshold
  • the computer may further function as an audio signal similarity search means for searching for.
  • the computer may further function as audio signal similarity display means for acquiring and displaying coordinates corresponding to the similarity for each scene searched by the audio signal similarity search means.
  • the scene dividing means calculates the feature value data of each clip from the audio signal of the moving image data, calculates the probability of belonging to each audio class representing the type of sound of each clip, and the visual signal of the moving image data Is divided into shots, the fuzzy inference value of each shot is calculated from the probability of belonging to each audio class of a plurality of clips corresponding to the shot, and continuous shots with small differences in fuzzy inference values between adjacent shots Is output as a scene.
  • the video signal similarity calculating means divides the scene into clips for each scene divided by the scene dividing means, and based on the color histogram of a predetermined frame of the moving image of each clip from the visual signal of each clip.
  • the clip is divided into audio signal frames, and each audio signal frame is classified into a voice frame and a background sound frame based on the energy and spectrum of each frame's audio signal. Then, the feature amount of the audio signal is calculated, and the similarity between the scenes is calculated based on the feature amount of the visual signal and the audio signal in clip units.
  • the audio signal similarity calculating means obtains a base sound from the audio signal, calculates a power spectrum focusing on time and frequency, calculates a similarity based on the base sound for any two scenes, and calculates the base from the audio signal. Calculate the energy of the frequency indicated by each pitch name for the sound having a higher frequency range than the sound, calculate the total energy difference for any two scenes, calculate the similarity based on the instrument excluding the base, The division of the high frequency component and the low frequency component of the audio signal is repeated a predetermined number of times using the two-divided filter bank, the envelope is detected from the signal containing the high frequency component, and the autocorrelation function is calculated. Based on this autocorrelation function, The similarity based on rhythm is calculated for any two scenes.
  • the fourth feature of the present invention relates to a moving image search program for searching for similar scenes in a scene of moving image data. That is, the moving image search program according to the third feature of the present invention divides the query moving image data stored in the moving image database and the visual signal of the moving image data into shots, and features of audio signals corresponding to the shots.
  • Scene segmentation means for outputting continuous shots with small differences as scenes, and for each scene segmented by the scene segmentation means, the similarity of the video signal between the scenes based on the visual signal features and audio signal features
  • Video signal similarity calculating means for generating video signal similarity data, and for each scene divided by the scene dividing means, based on the similarity based on the base sound of the audio signal and on the instrument excluding the base Audio between scenes, including similarity and rhythm-based similarity
  • Audio signal similarity calculating means for calculating signal similarity and generating audio signal similarity data, obtaining preference data that is a ratio of the preference for the video signal similarity and the audio signal similarity, and obtaining the video signal similarity Based on the data and audio signal similarity data, the similarity between scenes calculated from the features of the visual signal and the audio signal, the similarity based on the base sound of the audio signal, and the instrument excluding the base Based on the similarity obtained by determining the weighting factor for the similarity and the similarity based on the rhythm, and multiplying
  • the fifth feature of the present invention relates to a moving image search apparatus that searches a scene similar to query moving image data from a moving image data scene. That is, the moving image search apparatus according to the fifth aspect of the present invention divides a moving image database including moving image data including query moving image data and a visual signal of the moving image data into shots, and outputs audio signals corresponding to the shots.
  • a scene division unit that outputs consecutive shots with small feature differences as scenes, and a similarity based on the base sound of the audio signal and a similarity based on an instrument excluding the base for each scene divided by the scene division unit
  • An audio signal similarity calculation unit that calculates audio signal similarity between scenes including a rhythm-based similarity and generates audio signal similarity data, and a query video based on the audio signal similarity data
  • An auto search function that searches each scene of the data and a scene whose similarity between scenes is smaller than a certain threshold. Comprising a I o signal similarity search unit.
  • An audio signal similarity display unit that acquires and displays coordinates corresponding to the similarity for each scene searched by the audio signal similarity search unit may be further provided.
  • the audio signal similarity calculation unit obtains a base sound from the audio signal, calculates a power spectrum focusing on time and frequency, calculates a similarity based on the base sound for two arbitrary scenes, and calculates the base from the audio signal Calculate the energy of the frequency indicated by each pitch name for the sound having a higher frequency range than the sound, calculate the total energy difference for any two scenes, calculate the similarity based on the instrument excluding the base,
  • the division of the high frequency component and the low frequency component of the audio signal is repeated a predetermined number of times using the two-divided filter bank, the envelope is detected from the signal containing the high frequency component, and the autocorrelation function is calculated. Based on this autocorrelation function, You may calculate the similarity based on a rhythm about arbitrary two scenes.
  • the sixth feature of the present invention relates to a moving image search program for searching a scene similar to query moving image data from a moving image data scene.
  • the moving image search program according to the sixth feature of the present invention divides the query moving image data stored in the moving image database and the visual signal of the moving image data into shots, and calculates the feature amount of the audio signal corresponding to the shot.
  • a scene dividing unit that outputs continuous shots with small differences as a scene, a similarity based on the base sound of the audio signal, a similarity based on an instrument excluding the base, and a rhythm for each scene divided by the scene dividing unit
  • Audio signal similarity calculating means for generating audio signal similarity data by calculating the similarity of audio signals between scenes including similarity based on each of the query video data based on the audio signal similarity data Detect scenes and scenes where the similarity between scenes is less than a certain threshold. To function as an audio signal similarity search means for.
  • the computer may further function as audio signal similarity display means for acquiring and displaying coordinates corresponding to the similarity for each scene searched by the audio signal similarity search means.
  • the audio signal similarity calculating means obtains a base sound from the audio signal, calculates a power spectrum focusing on time and frequency, calculates a similarity based on the base sound for any two scenes, and calculates the base from the audio signal. Calculate the energy of the frequency indicated by each pitch name for the sound having a higher frequency range than the sound, calculate the total energy difference for any two scenes, calculate the similarity based on the instrument excluding the base, The division of the high frequency component and the low frequency component of the audio signal is repeated a predetermined number of times using the two-divided filter bank, the envelope is detected from the signal containing the high frequency component, and the autocorrelation function is calculated. Based on this autocorrelation function, You may calculate the similarity based on a rhythm about arbitrary two scenes.
  • the present invention it is possible to provide a moving image search device and a moving image search program for searching for a scene similar to a query scene of moving image data.
  • FIG. 1 is a functional block diagram of a moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 2 is an example of a screen that is output by the moving image search device according to the preferred embodiment of the present invention and displays a query image.
  • FIG. 3 is an example of a screen that is output by the moving image search device according to the preferred embodiment of the present invention and displays a similar image.
  • FIG. 4 is a hardware configuration diagram of the video search device according to the preferred embodiment of the present invention.
  • FIG. 5 is a flowchart for explaining scene division processing by the scene division unit according to the preferred embodiment of the present invention.
  • FIG. 6 is a flowchart for explaining video signal similarity calculation processing by the video signal similarity calculation unit according to the preferred embodiment of the present invention.
  • FIG. 1 is a functional block diagram of a moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 2 is an example of a screen that is output by the moving image search device according to the preferred embodiment of the present invention and displays
  • FIG. 7 is a flowchart for explaining audio signal similarity calculation processing by the audio signal similarity calculation unit according to the preferred embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining similarity calculation processing based on the bass sound according to the preferred embodiment of the present invention.
  • FIG. 9 is a flowchart for explaining similarity calculation processing based on other instruments other than the bass sound according to the preferred embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating similarity calculation processing based on rhythm according to the preferred embodiment of the present invention.
  • FIG. 11 is a flowchart for explaining video signal similarity search processing and video signal similarity display processing according to the preferred embodiment of the present invention.
  • FIG. 12 is a flowchart for explaining audio signal similarity search processing and audio signal similarity display processing according to the preferred embodiment of the present invention.
  • FIG. 13 is a diagram for explaining audio clip class classification in the video search apparatus according to the preferred embodiment of the present invention.
  • FIG. 14 is a table for explaining signals to be referred to when classifying audio clips in the moving picture search apparatus according to the preferred embodiment of the present invention.
  • FIG. 15 is a diagram illustrating processing for calculating the feature amount of an audio clip in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 16 is a diagram for explaining the process of outputting the main component of the feature amount of the audio clip in the moving picture search device according to the preferred embodiment of the present invention.
  • FIG. 17 is a diagram for explaining in detail the audio clip class classification in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 18 is a diagram for explaining shot division processing of a video by the ⁇ 2 test method in the moving image search apparatus according to the best embodiment of the present invention.
  • FIG. 19 is a diagram for explaining processing for generating a fuzzy set in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 20 is a diagram for explaining fuzzy control rules in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 21 is a diagram for explaining fuzzy control rules in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 22 is a diagram for explaining fuzzy control rules in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 23 is a flowchart for explaining visual signal feature amount calculation processing in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 24 is a flowchart for explaining audio signal feature amount calculation processing in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 25 is a diagram for explaining the lattice points of the three-dimensional DTW in the moving image search apparatus according to the best embodiment of the present invention.
  • FIG. 26 is a diagram for explaining a local path in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 27 is a flowchart for explaining the similarity calculation process between scenes in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 28 is a diagram for explaining calculation of similarity between patterns by a general DTW.
  • FIG. 29 is a diagram for explaining calculation of a path length by a general DTW.
  • FIG. 30 is a diagram for explaining the similarity calculation theory based on the base sound in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 31 is a flowchart for explaining similarity calculation processing based on the base sound in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 32 is a table for explaining the frequency of each pitch name.
  • FIG. 33 is a diagram for explaining pitch estimation processing in the moving picture search apparatus according to the preferred embodiment of the present invention.
  • FIG. 34 is a diagram for explaining similarity calculation based on musical instruments other than the base sound in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 35 is a flowchart for explaining similarity calculation processing based on other musical instruments in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 36 is a diagram illustrating low-frequency / high-frequency component calculation processing by the two-divided filter bank in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 37 is a diagram for explaining the low-frequency / high-frequency components calculated by the two-divided filter bank in the video search device according to the preferred embodiment of the present invention.
  • FIG. 38 is a diagram illustrating a signal before full-wave rectification and a signal after full-wave rectification in the moving picture search apparatus according to the best embodiment of the present invention.
  • FIG. 39 is a diagram for explaining signals processed by the low-pass filter in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 40 is a diagram for explaining downsampling in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 41 is a diagram for explaining average value removal processing in the video search apparatus according to the preferred embodiment of the present invention.
  • FIG. 42 is a diagram for explaining the autocorrelation of the Sin waveform.
  • FIG. 43 is a flowchart illustrating autocorrelation function calculation processing and rhythm function similarity calculation processing using DTW in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 44 is a diagram for explaining perspective transformation in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 45 is a functional block diagram of a video search device according to a modification of the present invention.
  • FIG. 46 is an example of a screen output by the moving image search device according to the modification of the present invention, on which a similar image is displayed.
  • FIG. 47 is a diagram for explaining an interface of the preference input unit of the video search device according to the modification of the present invention.
  • FIG. 48 is a flowchart for explaining display processing according to a modification of the present invention.
  • FIG. 49 is a diagram for explaining query image data input to the moving image search device in the similar image search simulation according to the embodiment of the present invention.
  • FIG. 50 is a graph showing the similarity for each scene between the query image data and the moving image data to be searched in the similar image search simulation according to the embodiment of the present invention.
  • FIG. 51 is a diagram showing a three-dimensional DTW path indicating the similarity to a scene similar to query image data in a similar image search simulation according to an embodiment of the present invention.
  • FIG. 52 is a diagram for explaining query image data input to the moving image search device in a similar image search simulation based on a video signal according to an embodiment of the present invention.
  • FIG. 53 is a diagram for explaining image data to be searched, which is input to the moving image search device, in a similar image search simulation based on a video signal according to the embodiment of the present invention.
  • FIG. 54 is a graph showing the similarity for each scene between the query image data and the moving image data to be searched in the similar image search simulation based on the video signal according to the embodiment of the present invention.
  • FIG. 55 is a diagram showing a three-dimensional DTW path indicating the similarity to a scene similar to query image data in a similar image search simulation based on a video signal according to an embodiment of the present invention.
  • FIG. 56 is a diagram for explaining query image data input to the moving image search device in the simulation of similar image search based on the audio signal according to the embodiment of the present invention.
  • FIG. 57 is a diagram for explaining image data to be searched that is input to the moving image search device in the simulation of similar image search based on the audio signal according to the embodiment of the present invention.
  • FIG. 58 is a graph showing the similarity for each scene between the query image data and the moving image data to be searched in the similar image search simulation based on the audio signal according to the embodiment of the present invention.
  • FIG. 59 is a diagram showing a three-dimensional DTW path indicating the similarity to a scene similar to query image data in a similar image search simulation based on an audio signal according to an embodiment of the present invention.
  • a “shot” is a continuous image frame sequence from camera switching to the next camera switching.
  • CG animation and composite video are also used in the same meaning by replacing the camera with the setting of the shooting environment.
  • the discontinuous points between shots are called “cut points”.
  • a “scene” is a collection of meaningful consecutive shots.
  • a “clip” is a signal obtained by dividing a video signal by a predetermined clip length. The clip preferably includes a plurality of frames.
  • a “frame” is still image data constituting moving image data.
  • the moving picture search apparatus 1 searches a scene similar to query moving picture data from scenes of moving picture data.
  • the moving image search apparatus 1 according to the best mode of the present invention classifies moving image data existing in the moving image database 11 into scenes, calculates the similarity between the query moving image data and each scene, and sets the query moving image data as query moving image data. Search for similar scenes.
  • the similarity between videos is calculated by using the analysis result of the audio / visual signal that is a component of the video without using metadata, and the similar video is obtained.
  • a system for performing the search will be described.
  • a system for visualizing those search / classification results on a three-dimensional space will be described.
  • two similarities are calculated for a video, the similarity of video information based on a video signal including an audio signal and a visual signal, and the similarity of music information based on the audio signal.
  • the video in the database is automatically classified, and a video similar to the video of interest can be presented to the user.
  • the best mode of the present invention it is possible to understand the similarity of images according to the distance of the space by arranging the images in a three-dimensional space based on the similarity between the images. A user interface is realized.
  • the video search apparatus 1 reads a plurality of videos from the video database 11, and the scene dividing unit 21 is a section including the same contents for all videos. Calculate a scene. Further, the classification unit 22 calculates the similarity between all the obtained scenes, the search unit 25 extracts moving image data having a high similarity with the query image, and the display unit 28 displays a video having a similar scene. Images are arranged in a three-dimensional space so that they are close to each other. When a query video is given, processing is performed mainly on the video.
  • the classification unit 22 of the video search device 1 (1) a video signal similarity calculation unit 23 based on “search / classification focusing on video information”, and (2) “ The audio signal similarity calculation unit 24 branches to two based on “search / classification focusing on music information”, and the similarity is calculated using a different algorithm.
  • the moving image search device 1 displays the display screen P101 and the display screen P102 shown in FIGS. 2 and 3 on the display device.
  • the display screen P101 includes a query image display unit A101.
  • the moving image search device 1 searches the moving image database 11 for a scene similar to the moving image displayed on the query image display unit A101, and displays the display screen P102 on the display device.
  • the display screen P102 includes similar image display portions A102a and A102b. In these similar image display sections A102a and A102b, scenes of moving image data retrieved from the moving image database 11 and similar to the scene displayed in the query image display section A101 are displayed.
  • the moving picture search apparatus 1 includes a central processing control device 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, and an input / output interface 109.
  • a central processing control device 101 a central processing control device 101
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input device 104, a display device 105, a communication control device 106, a storage device 107, and a removable disk 108 are connected to the input / output interface 109.
  • the central processing control device 101 reads out and executes a boot program for starting up the moving image search device 1 from the ROM 102 based on an input signal from the input device 104, and further reads out an operating system stored in the storage device 107. Further, the central processing control device 101 controls various devices based on input signals from the input device 104, the communication control device 106, etc., and reads programs and data stored in the RAM 103, the storage device 107, etc. into the RAM 103. A processing device that loads and implements a series of processes to be described later, such as data calculation or processing, based on a program command read from the RAM 103.
  • the input device 104 includes input devices such as a keyboard and a mouse through which an operator inputs various operations.
  • the input device 104 generates an input signal based on the operation of the operator, and inputs via the input / output interface 109 and the bus 110. It is transmitted to the central processing control apparatus 101.
  • the display device 105 is a CRT (Cathode Ray Tube) display, a liquid crystal display, or the like, and receives an output signal to be displayed on the display device 105 from the central processing control device 101 via the bus 110 and the input / output interface 109. It is a device that displays the processing result of the control device 101 and the like.
  • the communication control device 106 is a device such as a LAN card or a modem, and is a device that connects the moving image search device 1 to a communication network such as the Internet or a LAN. Data transmitted / received to / from the communication network via the communication control device 106 is transmitted / received to / from the central processing control device 101 via the input / output interface 109 and the bus 110 as an input signal or an output signal.
  • the storage device 107 is a semiconductor storage device or a magnetic disk device, and stores programs and data executed by the central processing control device 101.
  • the removable disk 108 is an optical disk or a flexible disk, and signals read / written by the disk drive are transmitted / received to / from the central processing control apparatus 101 via the input / output interface 109 and the bus 110.
  • the moving image search program is stored in the storage device 107 of the moving image search device 1 according to the preferred embodiment of the present invention, and the moving image database 11, the video signal similarity data 12, and the audio signal are stored. Similarity data 13 is stored. Further, the moving image search program is read and executed by the central processing control device 101 of the moving image search device 1, whereby the scene dividing unit 21, the classification unit 22, the search unit 25, and the display unit 28 are mounted on the moving image search device 1.
  • the moving image database 11 stores a plurality of moving image data.
  • the moving image data stored in the moving image database 11 is an object to be classified by the moving image search device 1 according to the best embodiment of the present invention.
  • the moving image data stored in the moving image database 11 is composed of video signals including audio signals and visual signals.
  • the scene dividing unit 21 reads the moving image database 11 from the storage device 107, divides the visual signal of the moving image data into shots, and outputs continuous shots having a small difference in the feature amount of the audio signal corresponding to the shot as a scene. . More specifically, the scene dividing unit 21 calculates feature amount data of each clip from the audio signal of the moving image data, and calculates the belonging probability to each audio class representing the type of sound of each clip. Further, the scene dividing unit 21 divides the visual signal of the moving image data into shots, and calculates a fuzzy inference value for each shot from the probability of belonging to each audio class of a plurality of clips corresponding to the shot. Further, the scene dividing unit 21 outputs consecutive shots with a small difference in fuzzy inference values between adjacent shots as a scene.
  • step S101 an audio signal is extracted and read out from one of the moving image data stored in the moving image database 11, and in step S102, the audio signal is divided into clips.
  • step S103 to S105 the processing in steps S103 to S105 is repeated for each clip divided in step S102.
  • step S103 the feature amount of the clip is calculated, and in step S104, the parameter of the feature amount is reduced by PCA (principal component analysis).
  • PCA principal component analysis
  • the audio class attribution probability of the clip is calculated based on the MGD based on the feature amount after being reduced in step S104.
  • the audio class is a class that represents the type of audio signal such as silence, voice, or music.
  • step S107 When the audio class belonging probability is calculated for each clip of the audio signal in steps S103 to S105, the visual signal corresponding to the audio signal acquired in step S101 is extracted and read in step S106, and in step S107.
  • the video data is divided into shots based on the chi-square test method. In this chi-square test method, a color histogram of a visual signal is used instead of an audio signal.
  • step S107 when the moving image data is divided into a plurality of shots, the processing in steps S108 and S109 is repeated for each shot.
  • step S108 the probability of belonging to the audio class for each shot is calculated.
  • the attribution probability to the audio class calculated in step S105 is acquired.
  • the average value of the probability of belonging to the audio class of each clip is calculated as the probability of belonging to the audio class for the shot.
  • the output variables and membership function values of each shot class are calculated by fuzzy inference for each shot.
  • step S110 When the processing of step S108 and step S109 is executed for all the shots divided in step S107, in step S110, each shot is determined based on the output variable of each shot class and the value of the membership function by fuzzy inference. Connect to divide the video data into scenes.
  • the classification unit 22 includes a video signal similarity calculation unit 23 and an audio signal similarity calculation unit 24.
  • the video signal similarity calculating unit 23 calculates the video signal similarity between scenes from the visual signal feature amount and the audio signal feature amount, Similarity data 12 is generated.
  • the similarity between scenes is the similarity of visual signals between a certain scene and another scene. For example, if n scenes are stored in the moving image database 11, the visual signal similarity with the second scene, the visual signal similarity with the third scene for the first scene,... The similarity of the visual signal with the nth scene is calculated. More specifically, the video signal similarity calculating unit 23 divides the scene into clips for each scene divided by the scene dividing unit 21, and uses a predetermined video signal of each clip from the visual signal of each clip.
  • the feature amount of the visual signal is calculated. Furthermore, the video signal similarity calculation unit 23 divides the clip into audio signal frames, and classifies the audio signal frames into audio frames and background sound frames based on the energy and spectrum of the audio signals in each frame. The feature amount of the audio signal is calculated. Further, the video signal similarity calculation unit 23 calculates the similarity between scenes based on the feature values of the visual signal and the audio signal in units of clips, and stores them in the storage device 107 as the video signal similarity data 12.
  • step S201 a video signal corresponding to a scene is divided into clips.
  • step S202 the feature amount of the visual signal is calculated in step S202, and the feature amount of the audio signal is calculated in step S203.
  • step S204 When the feature amount of the visual signal and the feature amount of the audio signal are calculated for each scene of each moving image data, the similarity between the scenes is calculated in step S204. Further, in step S205, the similarity of the scene in step S204 is stored in the storage device 107 as video signal similarity data 12 which is the similarity of video information between scenes.
  • the audio signal similarity calculating unit 24 includes, for each scene divided by the scene dividing unit 21, a similarity based on the base sound of the audio signal, a similarity based on an instrument excluding the base, and a similarity based on a rhythm.
  • the audio signal similarity data 13 is generated by calculating the audio signal similarity between scenes.
  • the similarity is a similarity between a certain scene and another scene based on a bass sound, an instrument other than a bass, and a rhythm. For example, if n scenes are stored in the moving image database 11, the first scene has a bass sound with the second scene, a musical instrument other than the bass, a similarity based on the rhythm, and a third scene.
  • Similarity based on each of the base sound, the musical instrument excluding the bass, and the rhythm The similarity based on the bass sound with the nth scene, the musical instrument other than the bass, and the rhythm is calculated. More specifically, when calculating the similarity based on the base sound, the audio signal similarity calculating unit 24 acquires the base sound from the audio signal, calculates a power spectrum focusing on time and frequency, The similarity based on the base sound is calculated for the two scenes. Further, when calculating the similarity based on the musical instrument excluding the bass sound, the audio signal similarity calculating unit 24 calculates the energy of the frequency indicated by each pitch name for the sound having a higher frequency range than the base sound from the audio signal.
  • the audio signal similarity calculation unit 24 repeats the division of the high-frequency component and the low-frequency component of the audio signal by a predetermined number of times using the two-divided filter bank, and from the signal including the high-frequency component.
  • An autocorrelation function is calculated by detecting the envelope, and a rhythm-based similarity is calculated for any two scenes based on the autocorrelation function.
  • step S301 the similarity based on the base sound of the audio signal corresponding to the scene is calculated.
  • step S302 the similarity of the audio signal based on an instrument other than the bass sound is calculated.
  • step S303 the similarity based on the rhythm of the audio signal is calculated.
  • step S304 the similarity based on each of the bass sound calculated in steps S301 to S303, the musical instrument excluding the bass, and the rhythm is the audio signal similarity data 13 which is the similarity of the acoustic information between scenes. It is stored in the storage device 107.
  • step S311 a bass sound is extracted through a predetermined band pass filter.
  • the predetermined band is a band corresponding to the bass sound, and is, for example, 40 Hz to 250 Hz.
  • step S312 paying attention to time and frequency, a weighted power spectrum is calculated, and in step S313, a bass pitch is estimated using the weighted power spectrum. Further, in step S314, the similarity of the bass pitch is calculated using DTW.
  • step S321 the energy of the frequency indicated by the pitch name is calculated.
  • the energy of the frequency indicated by each pitch name is calculated.
  • step S322 the ratio of the energy with respect to the whole frequency range is calculated about the energy of the frequency which each pitch name shows.
  • step S323 the similarity of the energy ratio of the pitch name is calculated using DTW.
  • step S331 the low-frequency component and the high-frequency component are calculated by repeating a predetermined number of divisions by the two-divided filter bank. Thereby, it is possible to estimate a rhythm by a plurality of types of instrument sounds.
  • the envelopes are detected by the processing from step S332 to step S335, and the outline of each signal is acquired. Specifically, full-wave rectification is performed on the waveform acquired in step S331 in step S332, and a low-pass filter is applied in step S333. Further, in step S334, downsampling is performed, and in step S335, the average value is removed.
  • an autocorrelation function is calculated in step S336, and the similarity of the rhythm function is calculated using DTW in step S337.
  • the search unit 25 includes a video signal similarity search unit 26 and an audio signal similarity search unit 27.
  • the display unit 28 includes a video signal similarity display unit 29 and an audio signal similarity display unit 30.
  • the video signal similarity search unit 26 searches for a scene whose similarity between scenes is smaller than a certain threshold based on the video signal similarity data 12.
  • the video signal similarity display unit 29 acquires and displays coordinates corresponding to the similarity for each scene searched by the video signal similarity search unit 26.
  • the video signal similarity data 12 is read from the storage device 107. Further, for each scene divided by the scene dividing unit 21, the similarity of the visual signal with the query moving image scene is acquired in step S401, and the similarity of the audio signal with the query moving image scene is acquired in step S402. .
  • step S403 among the similarities acquired in steps S401 and S402, a scene having a similarity equal to or higher than a predetermined value is searched.
  • threshold processing is performed based on similarity
  • a predetermined number of scenes may be searched from those having high similarity.
  • step S451 coordinates in the three-dimensional space are calculated for each scene searched by the video signal similarity search unit 26.
  • the axis in the three-dimensional space becomes three coordinates obtained by the three-dimensional DTW.
  • step S452 the coordinates of each scene calculated in step S451 are perspective-transformed, and the size of the moving image frame of each scene is determined.
  • step S453 the image is displayed on the display device.
  • the audio signal similarity search unit 27 searches scenes in which the audio signal similarity is smaller than a certain threshold based on the audio signal similarity data 13.
  • the audio signal similarity display unit 30 acquires and displays coordinates corresponding to the similarity for each scene searched by the audio signal similarity search unit 27.
  • the processing of the audio signal similarity search unit 27 and the audio signal similarity display unit 30 will be described with reference to FIG. With reference to FIG. 12A, the processing of the audio signal similarity search unit 27 will be described.
  • the audio signal similarity data 13 is read from the storage device 107. Further, for each scene divided by the scene dividing unit 21, the similarity based on the base sound with the query moving image scene is acquired in step S501.
  • step S502 the similarity based on the non-bass sound with the query moving image scene is acquired.
  • step S501 the similarity based on the rhythm with the query moving image scene is acquired.
  • step S504 a scene having a similarity equal to or higher than a predetermined value among the similarities acquired in steps S501 to S503 is searched.
  • threshold processing is performed based on similarity will be described, but a predetermined number of scenes may be searched from those having high similarity.
  • step S551 coordinates in the three-dimensional space are calculated for each scene searched by the audio signal similarity search unit 27.
  • the axes in the three-dimensional space are the similarity based on the bass sound, the similarity based on the instrument other than the bass, and the similarity based on the rhythm.
  • step S552 the coordinates of each scene calculated in step S551 are perspective-transformed to determine the size of the moving image frame of each scene.
  • step S553 the image is displayed on the display device.
  • the scene dividing unit 21 divides the video signal into scene units in order to calculate the similarity between the videos existing in the database.
  • the scene can be calculated by using both the audio signal of the video signal obtained from the moving image database 11 and the moving image frame.
  • the scene division unit 21 first divides the audio signal into small sections called clips, calculates feature amounts for each, and further reduces feature amounts by PCA (principal component analysis). Next, audio classes (silence, voice, music, etc.) representing the types of audio signals are prepared, and the probability that each clip belongs to those classes, that is, the probability of belonging, is obtained by MGD. Furthermore, in the best mode of the present invention, the division of shots, which are sections continuously photographed by one camera, is performed on the visual signal (frame) in the video by using the ⁇ 2 test. . Further, by calculating the average of the probability of belonging to the audio class for the clip of the audio signal included in each shot, the probability of belonging to the audio class as a shot can be obtained.
  • PCA Principal component analysis
  • a fuzzy inference value of a shot class representing a shot type is calculated by performing fuzzy inference for each shot from the obtained probability of belonging. Finally, a difference in fuzzy inference value is obtained between all adjacent shots, and a continuous section having a small value is obtained as one scene.
  • the degree (fuzzy inference value) that the shot to be processed belongs to each shot class is obtained.
  • the shot classification result may differ depending on the subjective evaluation of the user. For example, in the sound with added music, if the music in the background has a very low volume, whether the audio signal should be classified as “sound with music” or the main “sound” Depends on user requirements. Therefore, by giving the fuzzy inference values of all shot clusters to the shot and finally obtaining the difference, it is possible to divide the scene in consideration of the user's subjective evaluation.
  • the signal to be processed is classified into an audio class.
  • audio classes such as music and voice
  • audio in an environment where music exists in the background sound with noise
  • environments where noise exists in the background There are many types of audio classes such as the following voice (sound with noise), and it is difficult to define the boundaries of which audio classes are classified in such audio signals. is there. Therefore, in the preferred embodiment of the present invention, by using an inference value based on fuzzy inference, the degree to which the signal to be processed belongs to each audio class is calculated with high accuracy, and classification is performed.
  • the degree (below, belonging probability) that an audio signal belongs to four types of audio classes defined below is calculated using PCA and MGD.
  • the attribution probability to each audio class is calculated by performing three classification processes “CLS # 1” to “CLS # 3” shown in FIG. 13 and using the classification results.
  • all the classification processes from CLS # 1 to CLS # 3 are the same procedure, and “calculation of feature value”, “application of PCA”, and Three processes of “calculation of MGD” are performed.
  • the reference signal includes one (or a plurality) of audio signals of Si, Sp, Mu, No depending on the purpose of the classification process.
  • each process will be described.
  • the scene dividing unit 21 uses the audio signal to be processed and the two types of reference signals shown in FIG. 14 as follows.
  • the audio signal has a frame unit (frame length: W f ) feature amount and a clip unit (clip).
  • the feature amount of length: W c where W c > W f ) is calculated.
  • the scene division unit 21 calculates an average value and a standard deviation in the clip of the feature amount of the audio signal in units of frames, and adds them to the feature amount of the unit of clip.
  • step S1101 an audio signal of one clip is divided into audio signal frames.
  • step S1102 the volume, zero crossing rate, pitch, frequency center position, frequency bandwidth, and subband energy ratio are calculated in steps S1102 to S1107 for each audio signal frame divided in step S1101.
  • step S1108 an average value and a standard deviation for each feature amount of the volume, zero crossing rate, pitch, frequency center position, frequency bandwidth, and subband energy ratio of each audio signal frame included in one clip are calculated.
  • the non-silence rate is calculated for the audio signal of one clip in step S1109, and the zero ratio is calculated in step S1110.
  • step S1111 the feature values of the average value, the standard deviation, the silence rate, and the zero ratio calculated in steps S1108 to S1110 are integrated and output as the feature values of the audio signal in the clip.
  • the scene division unit 21 normalizes the feature amount calculated from the clip of the signal to be processed and the feature amount in clip units calculated from the two types of reference signals, and performs PCA. By applying PCA, it is possible to reduce the influence between highly correlated feature quantities. In addition, among the main components obtained from PCA, those whose eigenvalues are 1 or more are used in the subsequent processing, so that it is possible to avoid an increase in the amount of calculation and a fuse phenomenon.
  • the reference signal used here differs depending on the class to be classified. For example, “CLS # 1” shown in FIG. 13 is classified into Si + No and Sp + Mu.
  • One of the two types of reference signals used at this time is a signal in which a signal composed only of silence (Si) and a signal composed only of noise (No) are connected in the time axis direction so as not to overlap. It is.
  • Another reference signal is a signal obtained by connecting a signal composed only of speech (Sp) and a signal composed only of music (Mu) in the time axis direction so as not to overlap.
  • the two types of reference signals used in “CLS # 2” are a signal composed only of silence (Si) and a signal composed only of noise (No).
  • the two types of reference signals used in “CLS # 3” are a signal composed of only sound (Sp) and a signal composed of only music (Mu).
  • Principal Component Analysis is a technique for expressing the covariance (correlation) between a plurality of variables with a small number of synthetic variables. It can be obtained as a solution to the eigenvalue problem of the covariance matrix.
  • the influence between feature quantities having high correlation is reduced by performing principal component analysis on the feature quantities obtained from the signal to be processed.
  • those having an eigenvalue of 1 or more are selected and used, thereby avoiding an increase in calculation amount and a phenomenon of fuse.
  • FIG. 16A is a process for outputting the principal component of the clip of the signal to be processed
  • FIG. 16B is a process for outputting the principal component of the reference signal 1 and reference signal 2 clips.
  • the process shown in FIG. 16A will be described.
  • step S1201 the clip feature amount of the processing target signal calculated according to the processing described with reference to FIG. 15 is input.
  • step S1204 the feature amount of each clip is normalized, and in step S1205, PCA (principal component analysis) is performed.
  • step S1206 the axis of the principal component having a fixed value of 1 or more is calculated, and the principal component of the clip of the processing target signal is output.
  • PCA principal component analysis
  • step S1251 the feature amount calculated from the clip of reference signal 1 is input, and in step 1252, the feature amount calculated from the clip of reference signal 2 is input.
  • step S1253 the feature amount of each clip is normalized for each of the reference signal 1 and the reference signal 2, and in step S1254, PCA (principal component analysis) is performed.
  • step S1255 the axis of the principal component having a fixed value of 1 or more is calculated, and one principal component is output for the reference signal 1 and the reference signal 2.
  • the reference signal 1 and the reference signal 2 input here differ depending on the class classification process. For every CLS # 1 to CLS # 1 to 3 described later, the process of FIG. 16B is executed in advance for all the reference signals 1 and reference signals 2 used in the respective classification processes.
  • MGD Mohalanobis general distance
  • MGD Mahalanobis general distance
  • the feature vector group of two types of reference signals calculated in the same way Is calculated by the following equation.
  • step S1301 a vector having the main component of each clip of the processing target signal as an element is input.
  • the vector input here is data calculated by the above-described FIG.
  • step S1303 the processes of steps S1302 to S1305 are performed.
  • step S1302 the distance between the processing target signal and the reference signal 1 is calculated, and in step S1303, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 1 is calculated.
  • step S1304 the distance between the processing target signal and the reference signal 2 is calculated, and in step S1305, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 2 is calculated.
  • step S1306 the processing from step S1306 to step S1309 is performed.
  • step S1307 the distance between the processing target signal and the reference signal 1 is calculated, and in step S1307, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 1 is calculated.
  • step S1308 the distance between the processing target signal and the reference signal 2 is calculated, and in step S1309, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 2 is calculated.
  • step S1310 on the basis of the degree of membership calculated in step S1303 and step S1307, membership probability P 1 to the audio class Si is calculated.
  • step S1311 on the basis of the degree of membership calculated in step S1303 and step S1309, membership probability P 4 to the audio class No is calculated.
  • step S1312 the distance between the processing target signal and the reference signal 1 is calculated, and in step S1313, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 1 is calculated. Further, in step S1314, the distance between the processing target signal and the reference signal 2 is calculated, and in step S1315, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 2 is calculated.
  • step S1316 on the basis of the degree of membership calculated in step S1305 and step S1313, membership probability P 2 to the audio class Sp is calculated.
  • step S1317 on the basis of the degree of membership calculated in step S1305 and step S1315, membership probability P 3 to the audio class Mu is calculated.
  • a shot cut is obtained using a split ⁇ 2 test.
  • f represents the frame number of the video signal
  • r represents the region number
  • b represents the number of bins in the histogram.
  • step S1401 the frame data of the visual signal is acquired.
  • step S1404 a color histogram difference evaluation Er is calculated between frames of adjacent visual signals. Among the difference evaluation Er calculated for each rectangular area, eight smaller sums E sum are calculated.
  • step S1406 a shot cut is determined at a time when E sum is larger than the threshold value, and a shot section is output.
  • a shot interval is output by determining that a time when the color histogram changes greatly in an adjacent interval is a shot cut.
  • step S108 the calculation process of the belonging probability to the audio class for each shot.
  • the average value of the probability of belonging to each audio class within a single shot Is calculated by the following equation. Where N is the total number of clips in the shot, k is the clip number in the shot, Is the membership probability in the kth clip Represents. These four average values By observing the value of, it is possible to know which type of audio signal among silence, voice, music and noise is included in the shot to be classified.
  • the attribution probability calculated by the conventional method represents the degree to which each clip of the audio signal belongs to each audio class.
  • the audio class of the audio In addition to the probability of belonging, the probability of belonging to the audio class of music and noise is also high. Therefore, on the other hand, by performing fuzzy inference, each shot is classified into six types of shot classes: silence, speech, music, noise, speech with music, and speech with noise.
  • signals to be processed are classified into four audio classes: silence, voice, music, and noise.
  • these four types of classes alone, there are multiple types of voices, such as voices in an environment with music in the background (sound with noise) and voices in an environment with noise in the background (sound with noise).
  • voice voice
  • music music
  • noise noise
  • the classification accuracy deteriorates. Therefore, in the preferred embodiment of the present invention, in addition to the above four audio classes, classification into six audio classes including a new class of voice with music and voice with noise is performed. Thereby, classification accuracy can be improved and a similar scene can be searched with higher accuracy.
  • step S109 in FIG. the input variable set in the calculation process of the probability of belonging to the audio class for each shot, and the value of the membership function
  • the fuzzy control rules shown in FIG. 20 and FIG. Apply the output variable for each shot class And membership function values Is calculated.
  • step S110 the degree to which each shot class is calculated by fuzzy inference processing.
  • is a shot number
  • D ( ⁇ 1 , ⁇ 2 ) between adjacent shots is defined by the following equation.
  • the distance D ( ⁇ 1 , ⁇ 2 ) is higher than a preset threshold Th D, it is determined that the similarity between shots is low and a scene cut exists at the shot boundary. Conversely, if the distance D ( ⁇ 1 , ⁇ 2 ) is lower than the threshold Th D, it is determined that the similarity between shots is high and belong to the same scene. Thereby, in the best mode of the present invention, it is possible to divide the scene in consideration of the similarity between shots.
  • step S1501 the average value of the belonging probability in all clips of each shot is calculated.
  • step S1502 eleven-stage fuzzy coefficients are read out, and a membership function for each shot is calculated.
  • the processing in step S1501 and step S1502 corresponds to the calculation processing of the probability of belonging to the audio class for each shot.
  • step S1503 the output and the value of the membership function of the output are calculated from the values of the input variable and the membership function.
  • the fuzzy control rules shown in FIGS. 20 and 21 are referred to.
  • step S1503 corresponds to a process for calculating the probability of belonging to the audio class for each shot. Further, in step S1504, the distance of the membership function between different shots is calculated, and in step S1505, it is determined whether the distance is larger than the threshold value. When the distance is larger than the threshold, the scene cut of the video signal is determined between the frames, and the scene section is output.
  • the processing in steps S1504 and S1505 corresponds to scene division processing using fuzzy inference values.
  • the probability of belonging to the audio class for the audio signal of the clip belonging to each shot is set.
  • the scene can be divided using the fuzzy inference value.
  • the video signal similarity calculation unit 23 performs a process of calculating the similarity with other scenes for each scene calculated by the scene division unit 21 in order to perform search / classification focusing on video information.
  • the similarity between the scenes of the video existing in the moving image database 11 is calculated as the similarity from the feature amount of the visual (moving image) signal and the feature amount of the audio signal.
  • a scene in a video is divided into clips, and the feature amount of a visual signal and the feature amount of an audio signal are extracted for each.
  • the similarity between scenes can be calculated by setting a three-dimensional DTW for these feature quantities.
  • DTW is a technique for calculating the similarity between signals by expanding and contracting two one-dimensional signals. Therefore, it is effective for comparison between signals in which signal expansion and contraction frequently occur.
  • the DTW that has been defined in the previous two dimensions is redefined in the three dimensions, and the cost for using them is newly set.
  • the cost for using them is newly set.
  • the cost to each of the visual signal and the audio signal it is possible to search and classify similar videos even when one of the moving image and the sound is different between the two scenes.
  • the time scale between scenes differs due to the characteristics of the DTW, or when the start time of the visual signal and the audio signal varies between scenes, it is possible to appropriately associate similar parts between scenes. .
  • the similarity between scenes is calculated by paying attention to both the visual signal (moving image signal) and the audio signal (sound signal) included in the video.
  • a given scene is divided into short-time clips, and the scene is expressed as a one-dimensional sequence of clips.
  • the feature amount based on the visual signal and the feature amount based on the audio signal are extracted from each clip.
  • DTW is used to associate similar portions of feature amounts between clip sequences, and the obtained optimum path is defined as the similarity between scenes.
  • the DTW is newly expanded and used in three dimensions, so that the similarity between scenes can be calculated by the cooperative processing of the visual signal and the audio signal.
  • each process will be described.
  • a process for dividing a video signal into clips will be described. This process corresponds to step S201 in FIG.
  • a scene to be processed is divided into short-time T c [sec] clips.
  • the feature amount of the visual signal is extracted from each clip obtained by dividing the video signal into clips.
  • a color histogram in the HSV color system is calculated from a predetermined frame of a moving image of each clip and used as a feature amount.
  • the predetermined frame of the moving image is, for example, the first frame of the moving image of each clip. Focusing on the fact that hue is more important in the human perception system, the number of bins in the histogram of hue, saturation, and brightness is set to 12, 2, and 2, for example. Therefore, the feature amount of the visual signal obtained from the clip unit is 48 dimensions in total. In this embodiment, the case where the number of bins in the histogram of hue, saturation, and lightness is 12, 2, and 2 will be described, but it may be arbitrarily set.
  • step S2101 a predetermined frame of the moving image of the clip is extracted, and in step S2102, the RGB color system is converted to the HSV color system.
  • step S2103 for example, a three-dimensional color histogram is generated by dividing the H axis into 12, the S axis into 2, and the V axis into 2, and the three-dimensional color histogram is calculated as the feature amount of the visual signal of the clip. To do.
  • the feature amount of the audio signal is extracted from each clip obtained by dividing the video signal into clips.
  • a 10-dimensional feature amount is used as the feature amount of the audio signal.
  • the audio signal included in the clip is analyzed for each frame having a fixed length T f [sec] (T f ⁇ T c ).
  • T f [sec] T f ⁇ T c
  • STE short time energy
  • STS short time spectrum
  • STE and STS obtained from each frame of the audio signal are defined by the following equations.
  • is the frame number of the audio signal
  • F s is the number of movements indicating the movement width of the frame of the audio signal
  • x (m) is an audio discrete signal
  • ⁇ (m) is m if m is in the time frame. Take 1 and 0 otherwise.
  • STS (k) has a frequency
  • f is a discrete sampling frequency. If the STE value exceeds the threshold Th 1 and the STS value in the range of 440 to 4000 Hz exceeds the threshold TH 2 , the frame of the audio signal must not exceed the voice frame. Classify as background sound frame.
  • the average energy is an average of the energy of all frames of the audio signal in the clip.
  • the low energy rate (low STE rate) is the ratio of background sound frames having energy equal to or lower than the average energy in the clip.
  • the average zero-crossing rate is an average of the rate at which the signs of adjacent audio signals change in all background sound frames in the clip.
  • the spectral flux density is an index of time transition of the frequency spectrum of the audio signal in the clip.
  • VFR Voice frame rate
  • VFR is the ratio of audio frames in all frames of the audio signal included in the clip.
  • the average subband energy ratio refers to 0-630, 630-1720, 1720-4400, 4400-11000 (with respect to the sum of power spectra at all frequencies with respect to the audio spectrum of the audio signal in the clip. Hz) in each range.
  • STE standard deviation ESTD The standard deviation ESTD of STE is defined by the following equation.
  • the energy (STE) standard deviation is a standard deviation of energy of all frames of the audio signal in the clip.
  • step S2201 each clip of the audio signal is divided into short audio signal frames.
  • step S2202 the energy of the audio signal in the frame of the audio signal is calculated, and in step S2203, the spectrum of the audio signal in the frame is calculated.
  • step S2204 each frame of the audio signal divided in step S2201 is classified into a voice frame and a background sound frame. Based on the classified frames of the audio signal, in step S2205, the above-described feature amounts a) to g) are calculated.
  • the similarity between scenes is defined by using the feature amount of each clip obtained by the feature amount extraction processing of the visual signal and the feature amount extraction processing of the audio signal.
  • DTW is used for comparison of clip sequences to associate similar portions, and the obtained optimum path is defined as the similarity between scenes.
  • the local cost used for DTW is determined based on the difference between all the feature quantities between clips, when only one of the signals is similar between scenes, or between the visual signal and the audio signal between scenes There is a possibility that an appropriate similarity may not be obtained, for example, when a deviation occurs at the start time of.
  • f v, t is a feature vector obtained from the visual signal included in the clip at time t
  • f A, t is a feature vector obtained from the audio signal included in the clip at time t.
  • Each lattice point on the three-dimensional DTW used in the best embodiment of the present invention is a local path from the previous seven lattice points as shown in FIGS. They are connected by # 1 to # 7.
  • the role each local path has is shown below.
  • a) Local paths # 1 and # 2 These paths allow expansion and contraction in units of clips.
  • Path # 1 has a role of allowing expansion / contraction of the clip of the query scene in the time axis direction, and pass # 2 allows expansion / contraction of the clip of the target scene in the time axis direction.
  • Local paths # 3 to # 5 are paths that associate similar parts.
  • path # 3 has a role of associating visual signals, path # 4 with audio signals, and path # 5 with both signals as similar parts.
  • path # 6 and # 7 This path allows a deviation due to synchronization of both signals.
  • the path # 6 has a role of allowing a shift of the visual signal in the time axis direction between scenes
  • the path ## 7 has a role of allowing a shift of the audio signal in the time axis direction between scenes.
  • step S2301 matching based on the feature quantity between scenes using 3D DTW is performed. Specifically, the minimum one of the seven results in ⁇ in the above (Formula 2-10) is selected.
  • step S2302 a local cost required for the three-dimensional DTW is set, and in step S2303, a local path is set.
  • step S2304 ⁇ , ⁇ , and ⁇ movement costs are added. ⁇ is the movement cost of path # 1 and path # 2, ⁇ is the movement cost of path # 3 and path # 4, and ⁇ is the movement cost of path # 6 and path # 7.
  • step S2305 the optimum route by matching is calculated as the similarity between scenes.
  • the similarity between scenes is calculated using the three-dimensional DTW based on the feature amount of the visual signal and the feature amount of the audio signal.
  • the similarity of the scene can be visualized based on the three-dimensional coordinates on the display unit described later.
  • DTW is a technique for calculating the similarity between signals by expanding and contracting two one-dimensional signals. For this reason, it is effective for comparison of signals that cause expansion and contraction in time series. Particularly in music signals, performance speed changes frequently, so it is considered effective to use DTW for calculating the similarity obtained from the similarity.
  • a signal to be referred to is referred to as a reference pattern
  • a signal for calculating the similarity to the reference pattern is referred to as a referenced pattern.
  • each element included in the one-dimensional reference pattern of length I is sequentially a 1 , a 2 ,... A I
  • each element included in the reference pattern of length J is sequentially b 1 , b 2 ,. ⁇ b J to representation.
  • the expansion / contraction map w that determines the correspondence between the elements of the pattern: ⁇ 1, 2,..., I ⁇ -> ⁇ 1, 2,..., J ⁇ satisfy the following properties. a) w matches the start and end points of the pattern. b) w is a monotone map.
  • the total path length is obtained as the sum of the partial path lengths.
  • the path length of the portion is determined by the cost d (j, i) at the lattice point (j, i) on the route and the movement cost c j, i (b) between the two lattice points (j, i) and (b, a). , A).
  • the calculation of the path length of the part is shown in FIG.
  • the cost d (j, i) on the lattice point is a penalty when the corresponding elements are different between the reference pattern and the referenced pattern.
  • the movement cost c j, i (b, a) is a penalty for moving from the lattice point (b, a) to the lattice point (j, i) when expansion / contraction occurs between the reference pattern and the referenced pattern. .
  • the total path length can be obtained by calculating the sum of the costs for each selected partial path.
  • the similarity of the entire pattern can be obtained from the similarity of each part of the pattern.
  • DTW is applied to an audio signal
  • a more detailed similarity calculation method is determined in consideration of characteristics in audio signal similarity calculation.
  • this feature can be expressed by the following two points. a) If the referenced pattern is a pattern obtained by adding only expansion / contraction to the reference pattern, these patterns are regarded as the same. b) When the referenced pattern and the reference pattern are the same, the referenced pattern contains the reference pattern without omission.
  • the similarity is calculated by DTW according to the above conditions.
  • the similarity can be calculated by recursively obtaining the path length using (Equation 2-15).
  • the audio signal similarity calculation unit 24 calculates similarity in order to perform search / classification focusing on music information for the scene calculated by the scene division unit 21.
  • the similarity based on the base sound of the audio signal, the similarity based on other instruments, and the similarity based on rhythm in all scenes obtained by the scene dividing unit 21 from the moving image database 11 are obtained. calculate.
  • the audio signal similarity calculation unit 24 performs the following three types of similarity calculation on the audio signal. ⁇ Similarity calculation based on bass sound ⁇ Similarity calculation based on other instruments ⁇ Similarity calculation based on rhythm
  • a band-pass filter is applied to the audio signal in order to obtain only a signal having a frequency considered to include the base sound.
  • a weighted power spectrum is calculated using a weighting function focused on time and frequency.
  • the bass pitch can be estimated by obtaining a frequency having a peak in the obtained power spectrum at each time. Further, the transition of the bass pitch of the audio signal is obtained between all two scenes, and this is input to the DTW, thereby calculating the similarity between the two signals.
  • the frequency indicating the 12 elements of the pitch name such as “do”, “re”, “mi”, “so #”, etc.
  • the time transition of the energy ratio is calculated.
  • signals including different frequencies are calculated by using a two-divided filter bank for audio signals.
  • the signal including each frequency is subjected to detection of the “envelope” which is a curve sharing a tangent at each time of the signal to obtain an outline of the signal.
  • This process is realized by sequentially performing “full wave rectification”, “application of a low-pass filter”, “down sampling”, and “average value removal”.
  • an autocorrelation function is obtained for a signal obtained by adding all these signals, and this is defined as a rhythm function.
  • the rhythm function of these audio signals is input to the DTW, thereby realizing the similarity between the two signals.
  • a melody in music is a time transition of a fundamental frequency composed of a plurality of sound sources.
  • the melody is composed of a bass sound and other instrument sounds according to the definition of the melody.
  • the similarity is obtained by performing matching processing on the transition of energy indicated by the bass sound and the transition of energy indicated by instruments other than the bass.
  • the energy indicated by the bass sound the power spectrum in the frequency region where the bass sound exists, and for the energy indicated by the other instrument sounds, the energy of the frequency indicated by the pitch name such as C, D, E.
  • the musical instrument sound includes many harmonics of the fundamental frequency (hereinafter referred to as harmonic structure), it is difficult to specify the fundamental frequency as the frequency range increases.
  • the music contains noise such as a stringed sound that is generated during pronunciation, and a frequency that does not exist on the scale can be estimated as the fundamental frequency of the musical instrument sound.
  • the energy of the frequency indicated by each pitch name is used as the energy of the instrument sound other than the bass, so that the effects of the above harmonic structure and noise can be reduced.
  • the energy of the frequency indicated by each pitch name is used as the energy of the instrument sound other than the bass, so that the effects of the above harmonic structure and noise can be reduced.
  • a bass sound having a fundamental frequency in the low frequency range it is possible to calculate a similarity degree that further reduces the influence of the harmonic structure.
  • the DTW is used for calculating the similarity, the similarity can be calculated even when the melody is expanded or contracted or missing.
  • the best mode of the present invention can calculate the similarity between songs based on the melody.
  • rhythm in addition to melody, rhythm is known as an important element. Therefore, in the best mode of the present invention, attention is newly paid to rhythm as a component of music, and the similarity between songs is calculated from the rhythm. In addition, the similarity is calculated by using DTW, thereby allowing expansion and contraction of the music in the time axis direction and calculating an appropriate similarity.
  • the audio signal similarity calculation unit 24 performs "similarity based on a base sound", “similarity based on other instruments”, with respect to music information in a video, that is, an audio signal.
  • the “similarity based on rhythm” is calculated.
  • the degree of similarity of music is calculated by focusing on the transition of music melody.
  • the melody is composed of a bass sound and a musical instrument sound other than the bass. This is because the sound produced simultaneously by the bass sound and the other instrument sounds is an index of chords and keys that determine the characteristics of the melody.
  • the similarity can be calculated by applying DTW to the energy of each instrument sound. Furthermore, in the preferred embodiment of the present invention, a new similarity based on the rhythm of the music is calculated. Rhythm in music is called three elements of music together with melodies and chords and is known as an important element that determines the detailed composition of music. Therefore, in the preferred embodiment of the present invention, the degree of similarity between songs is defined focusing on the rhythm.
  • a quantitative value (hereinafter referred to as a rhythm function) representing a rhythm is newly defined based on an autocorrelation function of a music signal, and the similarity is calculated by applying DTW to the rhythm function.
  • a rhythm function a quantitative value representing a rhythm
  • the best embodiment of the present invention makes it possible to calculate the similarity based on the rhythm important as a component of music.
  • each of “similarity based on bass sound”, “similarity based on other instruments”, and “similarity based on rhythm” will be described in detail.
  • Similarity calculation processing based on the bass sound in the audio signal similarity calculation unit 24 will be described. This process corresponds to step S301 in FIG. 7 and FIG.
  • the transition of the pitch indicated by the bass sound is used as the transition of the bass sound in the music.
  • the pitch is the fundamental frequency indicated by each note written on the score. Therefore, the transition of the pitch means the transition of energy at the main frequencies included in the bass sound.
  • the bass sound is extracted by the band pass filter.
  • the power spectrum at this time is indicated by G11.
  • a weighted power spectrum is calculated, and each scale is assigned as shown in G12.
  • G13 a histogram is calculated for each musical scale.
  • “B” having the maximum value in the histogram is selected as the scale of the bass sound.
  • a histogram for each frequency may be acquired from the power spectrum, and a musical scale may be acquired from the maximum frequency.
  • step S311 the audio signal is subjected to a band pass filter whose pass band is a frequency range of 40 to 250 Hz of the base sound, and a power spectrum is calculated at each time of the obtained signal.
  • step S312 a calculation process of a weighted power spectrum focusing on time / frequency.
  • This process corresponds to step S312 in FIG.
  • weights based on a Gaussian function are added to the time axis direction and the frequency axis direction of the power spectrum obtained by the bass sound extraction process using the passband filter.
  • the weight of the time axis function the power spectrum at the target time is greatly utilized.
  • a weight in the frequency axis direction and placing a weight on each scale C, C #, D,..., H)
  • a signal on the scale is selected.
  • the frequency giving the maximum energy in the weighted power spectrum at each time is estimated as the pitch.
  • the energy calculated from the power spectrum at frequency f is P (t, f)
  • the weighted power spectrum is R (t, f) shown in (Equation 3-1).
  • F m shown in (Expression 3-4) represents a frequency in the mth note of MIDI (Musical Instrument Digital Interface).
  • R (t, f) shown in (Equation 3-1) makes it possible to estimate a fundamental frequency that lasts for a certain period of time as a pitch by the weight in the time axis direction of (Equation 3-2). Further, only the frequency existing on the scale can be estimated as the pitch by the weight in the frequency axis direction shown in (Equation 3-3).
  • step S313 the frequency f that gives the maximum value at each time t of R (t, f) is defined as B (t), with the base pitch being used.
  • each cost used in (Equation 2-15) is set as follows. However, ⁇ > ⁇ . As a result, the cost for the melody shift due to a change in performance speed or the like is smaller than the cost due to the melody mismatch.
  • the similarity obtained as described above represents a D b.
  • step S3101 to step S3109 is executed for each scene in the moving image database 11.
  • step S3101 Fourier transformation is performed on one scene.
  • step S3102 a filter having a pass band of 40 to 250 Hz is applied.
  • step S3103 the power spectrum P (s, f) is calculated for each time.
  • step S3104 the weight in the time axis direction is calculated in step S3104, and the weight in the frequency axis direction is calculated in step S3105. Further, in step S3106, a weighted power spectrum is calculated based on the weight in the time axis direction and the weight in the frequency axis direction calculated in steps S3104 and S3105, and R (t, f) is output in step S3107. . Further, the frequency f giving the maximum value of R (t, f) at each time t is obtained and is set to B (t). In step S3109, this B (t) is output as the time transition of the bass sound.
  • step S3110 in order to determine the cost d (i, j) in (Equation 3-6) between predetermined times, the coincidence / non-coincidence of the bass sound is calculated.
  • step S 3111 setting the (Equation 3-6) and in accordance with (Equation 3-7), cost in DTW d (i, j) and C i, j (b, a ).
  • step S3112 the similarity based on DTW is calculated.
  • the energy of the frequency indicated by each pitch name the sum of the energy indicated by the frequency 2k times that in FIG. 32 is used.
  • the overtone structure of a plurality of musical instruments is reduced, and musical instrument sounds that exist in a frequency range where pitch estimation is difficult can be used for similarity calculation.
  • a certain scale X for example, C, C #, D, or H
  • the sound exists in the same octave unit, one octave above, two octaves above.
  • fx the frequency of a certain scale
  • the audio signal has a signal length of T seconds and a sampling rate f s , energy at time t (0 ⁇ t ⁇ T)) and frequency f is calculated from the power spectrum, and is represented as P (t, f).
  • the present invention is not limited to this method. Specifically, a histogram for each frequency may be acquired from the power spectrum, and a musical scale may be acquired from the maximum frequency.
  • the energy of the frequency indicated by each pitch name is calculated from the power spectrum.
  • the frequency corresponding to the pitch name X is defined as f X
  • the frequency energy P X (t) indicated by the pitch name X is defined by the following equation.
  • K is Any integer that does not exceed.
  • the energy of the frequency indicated by each pitch name obtained by the calculation processing of the energy of the frequency indicated by the pitch name is expressed by the ratio of the energy to the entire frequency range. This makes it possible to compare in the time axis direction for each pitch name, and to obtain a transition.
  • the energy ratio px (t) of the frequency indicated by the pitch name X is expressed by the following equation. The above is applied to all t and X, and the obtained px (t) is used as a transition of energy in instrument sounds other than the bass.
  • step S323 the similarity calculation process of the pitch name energy ratio using DTW.
  • the energy of the instrument sound other than the base of the audio signal is calculated between all two images in the database, and expressed as px r (t) and px i (t), respectively.
  • the similarity is calculated by DTW for each pitch name. Therefore, the similarity is obtained by 12 which is the number of pitch names. Therefore, the similarity of instrument sounds other than the bass is defined by the sum of the similarities obtained for each pitch name.
  • the similarity obtained for the pitch name X is Da x
  • the similarity Da of the sound by the instrument other than the bass is expressed by the following equation.
  • Equation 4-3 makes it possible to calculate the similarity using the transition of the energy of the frequency indicated by all pitch names. Also, by setting the cost shown in (Equation 4-4), the influence of the pitch name corresponding to the frequency with large energy on the overall similarity is increased. As a result, similarity calculation reflecting the main frequency components constituting the melody can be performed.
  • step S3201 Fourier transformation is performed on one scene.
  • step S3202 the power spectrum at each time is calculated.
  • step S3203 the frequency energy Px (t) indicated by the pitch name X is calculated, and px (t) is calculated.
  • step S3204 energy of all frequencies is calculated.
  • step S3205 an energy ratio px (t) is calculated based on the energy Px (t) of the frequency indicated by the pitch name calculated in step S3203 and the energy of all frequencies calculated in step S3204.
  • step S3206 the energy ratio px (t) is output as the energy in the instrument sound other than the bass.
  • step S3207 to step S3210 the similarity is calculated for the ratio of the energy of any two scenes.
  • step S3207 the cost d (i, j) and C i, j (b, a) in the DTW are set.
  • step S3208 the similarity between the two scenes in each pitch name is calculated by the DTW.
  • step S3209 the sum Da of similarity of all pitch names calculated in step S3208 is calculated.
  • this sum Da is output as the degree of similarity of sounds by instruments other than the bass sound.
  • Similarity calculation based on rhythm In the audio signal similarity calculation unit 24, a rhythm-based similarity calculation process will be described. This process corresponds to step S303 in FIG. 7 and FIG.
  • a fine rhythm represented by the tempo of the music is defined by the interval of the sounding time in all musical instruments including percussion instruments.
  • the global rhythm is considered to be determined by the intervals at which musical phrases or passages composed of instrument sounds that are continuously generated appear. Therefore, since the rhythm is given by the above time interval, it does not depend on the time of the music within a certain section. Therefore, in the preferred embodiment of the present invention, it is assumed that the audio signal is weakly stationary, and the rhythm function is expressed by an autocorrelation function. Thereby, the best embodiment of the present invention uniquely expresses the rhythm of the music using the audio signal, and enables the calculation of the similarity based on the rhythm.
  • a specific algorithm is shown below. Each process corresponds to each step in FIG.
  • N U indicates the signal length of x u . Since each signal obtained in this manner indicates a different frequency band, it is considered that the types of musical instruments included are also different.
  • step S3301 it is divided into a low frequency component and a high frequency component by a two-divided filter.
  • the low frequency component divided in step S3301 is further divided into a low frequency component and a high frequency component in step S3302.
  • the high frequency component divided in step S3301 is further divided into a low frequency component and a high frequency component in step S3303.
  • the two-part filter processing is repeated a predetermined number of times (U times), and in step S3304, the signal x u (n) on the side containing the high frequency component is output.
  • the high-frequency component of the input signal is output by the low-frequency / high-frequency component calculation processing by the two-divided filter bank.
  • step S332 to step S335 in FIG. 10 corresponds to step S332 to step S335 in FIG. 10.
  • the following 1) to 4) are steps S332 to S335 in FIG. 10, respectively.
  • An envelope is detected from the signal x u (n) obtained by the low frequency / high frequency component calculation processing by the two-divided filter bank.
  • An envelope is a curve that shares a tangent at each time of a signal, and makes it possible to obtain an outline of the signal. Therefore, it is possible to estimate the time when the volume increases with the sound of the musical instrument by envelope detection. Details of the processing for detecting the envelope will be described below.
  • step S336 The signal y u (n) obtained by the envelope detection process is up-sampled to a sampling rate of 2 u ⁇ 1 times, equalized in signal length, and then added together.
  • N 1 represents the signal length.
  • autocorrelation it becomes easy to search for a repetitive pattern included in a signal and extract a periodic signal included in noise.
  • various audio signal features can be represented by factors extracted from the autocorrelation function.
  • the autocorrelation function calculated using a signal for a fixed time from time t is used as a rhythm function at time t, and is used for calculating similarity between music pieces.
  • the rhythm function includes a rhythm caused by a plurality of instrument sounds in order to express a period of time when the volume increases in a plurality of frequency ranges. For this reason, in the best mode of the present invention, the similarity of music can be calculated using a plurality of rhythms including a global rhythm from a local rhythm. Next, the similarity of music is calculated using the obtained rhythm function. First, let us consider the rhythm similarity.
  • the rhythm in the music varies depending on the performer and the arranger. For this reason, even if it is the same music, the whole or a part of music may be played at a different speed. For this reason, in order to define the similarity between music based on a rhythm, it is necessary to allow the fluctuation
  • step S3401 When an envelope is input in step S3401, the processes in steps S3402 to S3404 are repeated for the music and reference music in the scene to be processed.
  • step S3402 the envelope output based on the audio signal of the target scene is upsampled.
  • step S3403 all y u (n) are added to u to obtain y (n).
  • step S3404 an autocorrelation function Z (m) of y (n) is calculated.
  • the self-function Z (m) in the reference music is calculated.
  • step S3405 the self-function Z (m) in the music of the scene to be processed is used as a rhythm function, and the similarity to the self-function Z (m) in the reference music is calculated by applying DTW.
  • step S3406 the similarity is calculated. Output degrees.
  • the display unit 28 includes a video signal similarity display unit 29 and an audio signal similarity display unit 30.
  • the display unit 28 is a user interface that displays search results from the search unit 25 and performs video playback, search, and visualization of search / classification results.
  • the user interface of the display unit 28 preferably has the following functions.
  • Video playback Video data stored in the video database 11 is placed at an arbitrary position for playback. At this time, the image of the frame behind the current frame position of the video being played back is arranged and displayed behind the video in the three-dimensional space. By constantly updating the position where each image is arranged, it is possible to obtain a visual effect such that the image flows from the back toward the front. Cueing in units of scenes Cueing is performed in units of scenes divided by the scene dividing unit 21.
  • the frame position of the moving image is moved to the start position of the scene before and after the scene being reproduced by a user operation.
  • -Display of search results By performing a search operation during video playback, the search unit 25 searches for similar scenes and displays the search results.
  • the retrieval of the similar scene by the retrieval unit 25 is performed based on the similarity obtained by the classification unit.
  • the display unit 28 extracts a scene whose similarity with the query scene is smaller than a certain threshold from the moving image database 11 and displays it as a search result. When displaying, it is displayed in a three-dimensional space with the display position of the query scene as the origin. At this time, for each scene of the search result, coordinates corresponding to the similarity are given to each scene.
  • the display position and size of each scene as a search result are determined.
  • the axis in the three-dimensional space becomes three coordinates obtained by the three-dimensional DTW.
  • the axes in the three-dimensional space are similarities based on the base sound and similarities based on other instruments, respectively. The similarity is based on rhythm. Thereby, a scene more similar to the query scene in the search result is displayed near the query scene.
  • the classification result further weighted by the classification parameters can be acquired by changing the coordinates displayed on the display device.
  • a coordinate having a high rhythm-based similarity indicates a scene with a high rhythm similarity and a low similarity based on a base sound or other musical instrument.
  • the similarity between videos is calculated using the audio signal and video signal that are the components of the video, and the classification result is 3 It can be visualized on a dimensional space.
  • the best mode of the present invention has two similarity calculation functions for calculating similarity based on music and calculating similarity based on both audio and visual signals, and the video is different. By focusing on the elements, it is possible to realize a search mode according to user preferences. Furthermore, by using this function, it is possible to automatically search for similar videos when a query video is given. In addition, when there is no query video, the video in the database is automatically classified, and a video similar to the video of interest can be presented to the user.
  • a user interface that can understand the similarity of images according to the distance of the space by arranging the images in a three-dimensional space based on the similarity between the images.
  • the three-dimensional space axis is set to three coordinates obtained by 3D DTW, and a search / classification algorithm focused on music information is used.
  • the similarity based on the bass sound, the similarity based on another musical instrument, and the similarity based on rhythm are used.
  • the user can subjectively evaluate which part of video and music is similar in the three-dimensional space.
  • the moving image search device 1a according to the modification of the present invention shown in FIG. 45 differs from the moving image search device 1 according to the best mode of the present invention shown in z1 in the search unit 25a and the display unit 28a.
  • the video signal similarity search unit 26 searches for video data similar to the query video data based on the video signal similarity data 12, and also uses the audio signal similarity.
  • the search unit 27 searches for video data similar to the query video data based on the audio signal similarity data 13.
  • the video signal similarity search unit 29 displays the search result by the video signal similarity search unit 26 on the screen and the audio signal similarity search unit 30.
  • the search result by the audio signal similarity search unit 27 is displayed on the screen.
  • the search unit 25a searches for video data similar to the query video data based on the video signal similarity data 12 and the audio similarity data 13, and the display unit 28a displays the search result. Display on the screen.
  • the search unit 25a determines the ratio of the similarity between the video signal similarity data 12 and the audio similarity data 13 for each scene according to the preference data, Get search results based on that percentage.
  • the display unit 28a further displays the search result acquired by the search unit 25a on the screen.
  • the search unit 25a acquires preference data, which is a preference ratio with respect to the video signal similarity and the audio signal similarity, by the operation of the input device or the like by the user. Furthermore, the display unit 25a, based on the video signal similarity data 12 and the audio signal similarity data 13, calculates the similarity between scenes calculated from the feature amount of the visual signal and the feature amount of the audio signal and the base sound of the audio signal. The weighting coefficient for the similarity based on the base, the similarity based on the musical instrument excluding the base, and the similarity based on the rhythm is determined.
  • the search unit 25a searches for a scene in which the integrated similarity between scenes is smaller than a certain threshold based on the integrated similarity by multiplying each similarity of each scene by this weighting coefficient.
  • the display unit 28a acquires and displays coordinates corresponding to the integrated similarity for each scene searched by the search unit 25a.
  • the three-dimensional coordinates given to each search result in the display unit 28a are determined as follows.
  • the X coordinate corresponds to the similarity between scenes calculated by the similarity calculation unit focusing on music information.
  • the Y coordinate corresponds to the similarity between scenes calculated by the similarity calculation unit focusing on the video information.
  • the Z coordinate corresponds to the final similarity between scenes obtained based on the preference parameter. However, these coordinates are adjusted so that all search results are displayed on the screen and the search results do not overlap.
  • the search unit 25a displays a display screen P201 shown in FIG. 46 on the display device.
  • the display screen P201 includes a preference input unit A201.
  • the preference input unit A201 selects each similarity data for the video signal similarity data 12 and the audio signal similarity data 13 calculated by the video signal similarity calculation unit 23 and the audio signal similarity calculation unit 24 of the classification unit 22.
  • An input of a preference parameter for determining whether to display with such weight is accepted.
  • the preference input unit A201 calculates the weight based on the coordinates clicked by the mouse.
  • the preference input unit A201 has an axis as shown in FIG. 47, for example.
  • FIG. 47 there are four regions divided by the axis Px and the axis Py. Similarity related to the video signal similarity data 12 is associated on the right side, acoustic similarity is associated with the upper right cell, and similarity based on moving images is associated with the lower right cell. Yes.
  • the left side is associated with the similarity related to the audio signal similarity data 13, the upper left cell is associated with the rhythm similarity, and the lower left cell is associated with the other instrument and bass similarity. It has been.
  • the search unit 25a When the user clicks on any of the preference input units A201 with the mouse, the search unit 25a, based on the coordinates of the Px of the click point, the video signal similarity data 12 calculated by the video signal similarity calculation unit 23, Each of the audio signal similarity data 13 calculated by the audio signal similarity data 13 is weighted. Further, the search unit 25a determines the weighting of each parameter for each similarity data based on the coordinates of the click point Py. Specifically, the search unit 25a determines the weight of the similarity between the audio of the video signal similarity data 12 and the similarity between the moving images, the similarity based on the rhythm of the audio signal similarity data 13, and the like. Each weight of similarity by instrument and bass is determined.
  • the process of the search part 25a and the display part 28a which concern on the modification of this invention is demonstrated.
  • the process by the search part 25a is demonstrated.
  • the video signal similarity data 12 and the audio signal similarity data 13 are read from the storage device 107.
  • the visual signal similarity with the query moving image scene is acquired from the video signal similarity data 12 in step S601, and the audio with the query moving image scene in step S602.
  • Signal similarity is obtained.
  • the similarity based on the base sound with the query moving image scene is acquired from the audio signal similarity data 13 in step S603.
  • the similarity based on the non-bass sound with the query moving image scene is acquired.
  • the similarity based on the rhythm with the query moving image scene is acquired.
  • step S606 a preference parameter is acquired from the coordinates in the preference input unit A201, and in step S607, a weighting factor is calculated based on the preference parameter.
  • step S608 a scene having a similarity greater than or equal to a predetermined value among the similarities acquired in steps S601 and S605 is searched.
  • threshold processing is performed based on similarity will be described, but a predetermined number of scenes may be searched from those having high similarity.
  • step S651 coordinates in the three-dimensional space are calculated for each scene searched by the step search unit 25a.
  • step S652 the coordinates of each scene calculated in step S651 are perspective-transformed to determine the frame size of the moving image of each scene.
  • step S653 the image is displayed on the display device.
  • the search unit 25a when performing similar scene search, the similarity between scenes calculated by the video signal similarity calculation unit 23 focused on video information, and music information
  • the user can designate which element should be emphasized in the similarity between scenes calculated by the audio signal similarity calculation unit 24 paying attention to.
  • the user designates a two-dimensional preference parameter as shown in FIG. 47, and a weighting factor for each similarity is determined based on this preference parameter.
  • the sum of the similarities multiplied by the weighting coefficient is used as the final similarity between scenes, and similar scenes are searched based on this.
  • the relationship between the preference parameters P x and P y specified by the user and the final similarity D between scenes is expressed by the following equation.
  • D sv and D sa are the similarity between scenes calculated by the similarity calculation unit focusing on the video information.
  • D sv is the similarity based on the visual signal
  • D sa is the similarity based on the audio signal.
  • D b , D a , and D ⁇ are similarities between scenes calculated by the similarity calculation unit focusing on music information
  • D b is a similarity based on a base sound
  • D a is a similarity based on another instrument.
  • D ⁇ indicates a rhythm-based similarity.
  • a preference parameter can be generated by combining a plurality of parameters, and a scene that matches the preference parameter can be displayed. Therefore, it is possible to provide a moving image search device that is intuitively understandable to the user.
  • the moving image database 11 stores moving image data including a query scene and moving image data of about 10 minutes including a scene similar to the query scene.
  • moving image data including a scene similar to the query scene is set as the moving image data to be searched, and a simulation is performed as to whether a scene similar to the query scene can be searched from a plurality of scenes included in the moving image data.
  • FIG. 49 to 51 show simulation results by the classification unit 22 and the search unit 25.
  • FIG. FIG. 49 shows moving image data of a query scene.
  • the upper image is a frame image for each fixed time composed of visual signals of moving image data.
  • the lower image is an audio signal waveform of moving image data.
  • FIG. 50 is a diagram showing the similarity to the query scene for each scene of the moving image data to be tested.
  • the horizontal axis represents the time from the start position of the moving image data to be searched, and the vertical axis represents the similarity to the query scene.
  • the position where the similarity is plotted is the start position of the scene of the moving image data to be searched.
  • a scene having a similarity of about “1.0” is a scene similar to the query scene.
  • the same scene as the scene shown in FIG. 49 is searched as a scene having a high degree of similarity.
  • the diagram shown in FIG. 51 shows three coordinates obtained by the three-dimensional DTW. As described above, the path # 5 shown in FIG.
  • FIG. 51 is a path having a role of associating both the visual signal and the audio signal as similar parts. From the result shown in FIG. 50, it can be confirmed that the similarity between scenes is calculated with high accuracy. Also, it can be confirmed from FIG. 51 that the similarity between scenes is appropriately associated by the three-dimensional DTW used in the embodiment.
  • FIG. 52 to 55 show simulation results by the video signal similarity calculation unit 23 and the video signal similarity search unit 26.
  • FIG. FIG. 52 shows moving image data of a query scene.
  • the upper image is a frame image for each fixed time composed of visual signals of moving image data.
  • the lower image is an audio signal waveform of moving image data.
  • FIG. 53 shows scenes included in the moving image data to be searched.
  • the query scene frames F13 to F17 shown in FIG. 52 are similar to the frames F21 to F25 of the search target scene shown in FIG.
  • the audio signal shown in FIG. 52 and the audio signal shown in FIG. 53 are clearly different.
  • FIG. 53 is a diagram showing the similarity to the query scene for each scene of the moving image data to be tested.
  • the horizontal axis is the time from the start position of the moving image data to be searched, and the vertical axis is the similarity to the query scene.
  • the position where the similarity is plotted in FIG. 53 is the start position of the scene of the moving image data to be searched.
  • a scene having a similarity of about “0.8” is a scene similar to the query scene.
  • the scene having a similarity of about “0.8” is the scene shown in FIG. This scene was searched as a scene with high similarity.
  • the diagram shown in FIG. 54 shows three coordinates obtained by the three-dimensional DTW.
  • the path # 1 illustrated in FIG. 54 is a path having a role of allowing expansion and contraction of the clip of the query scene in the time axis direction.
  • the path # 3 shown in FIG. 54 has a role of performing association with visual signals as similar parts. From the result shown in FIG. 54, it can be confirmed that the similarity between scenes is calculated with high accuracy even for a visual signal shifted in the time axis direction. Also, it can be confirmed from FIG. 54 that the similarity between scenes is appropriately associated by the three-dimensional DTW used in the embodiment.
  • FIG. 56 to 59 show simulation results by the audio signal similarity calculation unit 24 and the audio signal similarity search unit 27.
  • FIG. FIG. 56 shows moving image data of a query scene.
  • the upper image is a frame image for each fixed time composed of visual signals of moving image data.
  • the lower image is an audio signal waveform of moving image data.
  • FIG. 57 shows scenes included in the moving image data to be searched.
  • the frame image constituted by the query scene visual signal shown in FIG. 56 is clearly different from the frame image constituted by the search target scene visual signal shown in FIG.
  • the audio signal of the query data shown in FIG. 56 is similar to the audio signal of the search target scene shown in FIG.
  • FIG. 58 is a diagram showing the similarity to the query scene for each scene of the moving image data to be experimented.
  • the horizontal axis represents the time from the start position of the moving image data to be searched, and the vertical axis represents the similarity to the query scene.
  • the position where the similarity is plotted in FIG. 58 is the start position of the scene of the moving image data to be searched.
  • a scene having a similarity of about “0.8” is a scene similar to the query scene.
  • the scene having a similarity of about “0.8” is the scene shown in FIG. This scene was searched as a scene with high similarity.
  • the diagram shown in FIG. 59 shows three coordinates obtained by the three-dimensional DTW.
  • the path # 4 shown in FIG. 54 has a role to associate audio signals as similar parts. From the result shown in FIG. 54, it can be confirmed that the similarity between scenes is calculated with high accuracy even for a visual signal shifted in the time axis direction. Also, it can be confirmed from FIG. 54 that the similarity between scenes is appropriately associated by the three-dimensional DTW used in the embodiment.
  • the moving image search apparatus of the embodiment of the present invention it is possible to search for an image having a similar video signal with high accuracy using the video signal of the moving image data.
  • a program broadcast every week every day a specific corner that repeatedly starts with the same moving image can be searched with high accuracy using the video signal.
  • the title contains a date or when there is a change in sound, as long as the images are similar as a whole, it is possible to search for images with high similarity.
  • even in different programs it is possible to easily search for scenes with similar moving images and sounds.
  • the moving image search apparatus it is possible to search for an image having a similar audio signal with high accuracy using the audio signal of the moving image data.
  • the similarity of music is calculated based on the movement of the bass sound and the melody, it is possible to search for similar music regardless of the change or modulation of the music tempo. Can do.
  • the video search device described in the best mode of the present invention may be configured on one piece of hardware as shown in FIG. 1, or on a plurality of pieces of hardware according to the functions and the number of processes. It may be configured. Moreover, you may implement
  • the moving image search device 1 includes a classification unit 22, a search unit 25, and a display unit 28.
  • the classification unit 22 includes a video signal similarity calculation unit 23 and an audio signal similarity. The case where the calculation part 24 is provided is demonstrated.
  • the moving image search device 1 calculates, searches, and displays the similarity based on both the video signal and the audio signal.
  • the search unit 25 includes a video signal similarity search unit 26 and an audio signal similarity search unit 27, and the classification unit 22 includes a video signal similarity calculation unit 23 and an audio signal similarity calculation unit 24.
  • the display unit 28 includes a video signal similarity display unit 29 and an audio signal similarity calculation unit 30.
  • the classification unit 22 includes a video signal similarity calculation unit 23, the search unit 25 includes a video signal similarity search unit 26, and the display unit 28 includes a video signal similarity calculation unit 29.
  • the classification unit 22 includes an audio signal similarity calculation unit 24, the search unit 25 includes an audio signal similarity search unit 27, and the display unit 28 includes an audio signal similarity calculation unit 30.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

 動画データが記憶された動画データベース11と、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部21と、シーン分割部11によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データ12を生成するビデオ信号類似度算出部23と、ビデオ信号類似度データ12に基づいて、シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索部26と、ビデオ信号類似度検索部26によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示部29を備える。

Description

動画検索装置および動画検索プログラム
 本発明は、複数の動画データから、クエリ動画データに類似するシーンを検索する動画検索装置および動画検索プログラムに関する。
 近年の記憶媒体の大容量化やインターネットによる映像配信サービスの普及に伴い、ユーザは大量の映像を入手可能となった。しかしながら、ユーザが特定の映像を明示せずに、所望の映像を入手することは一般に困難である。これは、膨大なデータベースにおける映像の入手が、主に映像名や製作元等のキーワードを用いた検索に依存していることに起因する。このため、キーワードによる映像検索だけでなく、映像の構成に注目した検索や同一ジャンルの映像の検索等、映像の内容に基づく様々な検索技術の実現が期待されている。そこで、映像や楽曲間の類似度に着眼した手法が提案されている(例えば、特許文献1および特許文献2参照)。
 特許文献1に記載の方法では、各動画データに、複数の単純図形との類似率を求めて記録した被検索用単純図形類似率情報が関連づけられている。一方、画像検索時に、検索画像について複数の単純図形との類似率を求めて記録した検索用類似率情報を作成する。被検索用単純図形類似率情報と、検索用類似率情報とを照合し、複数の単純図形ごとの類似率を集計し平均した類似率が、予め設定した規定類似率以上の場合、その動画データを類似動画として検索する。また、特許文献2に記載の方法では、映像データにおける類似映像区間とそれ以外を区別する類似映像区間情報を生成する。このとき、特許文献2に記載の方法では、ショットの画像の特徴量に基づいて類似パターンに分類する。
 一方、感性に基づく単語をメタデータとして映像・楽曲に付加し、単語間の関係に基づいて映像・楽曲の類似度を算出する方法もある(非特許文献1および非特許文献2参照)。
特開2007-58258号公報 特開2007-274233号公報 L. Lu, D. Liu and H. J. Zhang, "Automatic Mood Detection and Tracking of Music Audio Signals," IEEE Trans. Audio, Speech and Language Proceeding, vol. 14, no. 1, pp. 5-8, 2006. T. Li and M. Ogihara, "Toward Intelligent Music Information Retrieval, " IEEE Trans. Multimedia, Vol. 8, No. 3, pp. 564-574, 2006.
 しかしながら、上記の特許文献1および特許文献2に記載の方法においては、画像の特徴のみに基づいた分類方法である。従って、同様の画像を含むシーンであっても、その画像の有する感性を把握して類似するシーンを取得することは困難である。
 また、非特許文献1および非特許文献2に記載の方法では、画像のもつ感性を把握して類似するシーンを検索することはできるが、予め各シーンについてメタデータを付与しなければならない。従って、昨今のデータベースの大容量化に伴い、多量の動画データを分類しなければならない場合には、対応することが困難である。
 従って本発明の目的は、動画データのクエリシーンに類似するシーンを検索する動画検索装置および動画検索プログラムを提供することである。
 上記課題を解決するために、本発明の第1の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置に関する。即ち本発明の第1の特徴に係る動画検索装置は、クエリ動画データを含む動画データが記憶された動画データベースと、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、シーン分割部によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、ビデオ信号類似度データに基づいて、クエリ動画データの各シーンと、シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索部と、を備える。
 ここで、ビデオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示部を更に備えても良い。
 シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、オーディオ信号類似度データに基づいて、クエリ動画データの各シーンと、シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索部と、を更に備えても良い。このとき、オーディオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示部を更に備えても良い。
 シーン分割部は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。
 ビデオ信号類似度算出部は、シーン分割部によって分割されたそれぞれのシーンについて、該シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、ビジュアル信号の特徴量を算出するとともに、クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、オーディオ信号の特徴量を算出し、クリップ単位のビジュアル信号とオーディオ信号の特徴量に基づいて、シーン間の類似度を算出する。
 オーディオ信号類似度算出部は、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する。
 本発明の第2の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置に関する。即ち本発明の第2の特徴に係る動画検索装置は、クエリ動画データを含む動画データが記憶された動画データベースと、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、シーン分割部によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得し、ビデオ信号類似度データおよびオーディオ信号類似度データに基づいて、ビジュアル信号の特徴量とオーディオ信号の特徴量から算出されたシーン間の類似度と、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度とに対する重み係数を決定して、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する検索部と、検索部によって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する表示部を備える。
 本発明の第3の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索プログラムに関する。即ち本発明の第3の特徴に係る動画検索プログラムは、コンピュータを、動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、シーン分割手段によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、ビデオ信号類似度データに基づいて、クエリ動画データの各シーンと、シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索手段として機能させる。
 ここで、ビデオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示手段として、更にコンピュータを機能させても良い。
 シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、オーディオ信号類似度データに基づいて、クエリ動画データの各シーンと、シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索手段として、更にコンピュータを機能させても良い。
 オーディオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示手段として、更にコンピュータを機能させても良い。
 シーン分割手段は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。
 ビデオ信号類似度算出手段は、シーン分割手段によって分割されたそれぞれのシーンについて、該シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、ビジュアル信号の特徴量を算出するとともに、クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、オーディオ信号の特徴量を算出し、クリップ単位のビジュアル信号とオーディオ信号の特徴量に基づいて、シーン間の類似度を算出する。
 オーディオ信号類似度算出手段は、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する。
 本発明の第4の特徴は、動画データのシーンを、類似するシーンを検索する動画検索プログラムに関する。即ち本発明の第3の特徴に係る動画検索プログラムは、コンピュータに、動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、シーン分割手段によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得し、ビデオ信号類似度データおよびオーディオ信号類似度データに基づいて、ビジュアル信号の特徴量とオーディオ信号の特徴量から算出されたシーン間の類似度と、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度とに対する重み係数を決定して、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する検索手段と、検索手段によって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する表示手段として機能させる。
 本発明の第5の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置に関する。即ち本発明の第5の特徴にかかる動画検索装置は、クエリ動画データを含む動画データが記憶された動画データベースと、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、オーディオ信号類似度データに基づいて、クエリ動画データの各シーンと、シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索部と、を備える。
 オーディオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示部を更に備えてもよい。
 オーディオ信号類似度算出部は、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出してもよい。
 本発明の第6の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索プログラムに関する。本発明の第6の特徴にかかる動画検索プログラムは、コンピュータを、動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、オーディオ信号類似度データに基づいて、クエリ動画データの各シーンと、シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索手段として機能させる。
 オーディオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示手段として、更にコンピュータを機能させてもよい。
 オーディオ信号類似度算出手段は、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出してもよい。
 本発明によれば、動画データのクエリシーンに類似するシーンを検索する動画検索装置および動画検索プログラムを提供することができる。
図1は、本発明の最良の実施の形態に係る動画検索装置の機能ブロック図である。 図2は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、クエリ画像を表示した画面例ある。 図3は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、類似画像を表示した画面例である。 図4は、本発明の最良の実施の形態に係る動画検索装置のハードウェア構成図である。 図5は、本発明の最良の実施の形態に係るシーン分割部によるシーン分割処理を説明するフローチャートである。 図6は、本発明の最良の実施の形態に係るビデオ信号類似度算出部によるビデオ信号類似度算出処理を説明するフローチャートである。 図7は、本発明の最良の実施の形態に係るオーディオ信号類似度算出部によるオーディオ信号類似度算出処理を説明するフローチャートである。 図8は、本発明の最良の実施の形態に係るベース音に基づく類似度算出処理を説明するフローチャートである。 図9は、本発明の最良の実施の形態に係るベース音以外の他楽器に基づく類似度算出処理を説明するフローチャートである。 図10は、本発明の最良の実施の形態に係るリズムに基づく類似度算出処理を説明するフローチャートである。 図11は、本発明の最良の実施の形態に係るビデオ信号類似度検索処理およびビデオ信号類似度表示処理を説明するフローチャートである。 図12は、本発明の最良の実施の形態に係るオーディオ信号類似度検索処理およびオーディオ信号類似度表示処理を説明するフローチャートである。 図13は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類を説明する図である。 図14は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類の際に参照される信号を説明するテーブルである。 図15は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップの特徴量を算出する処理を説明する図である。 図16は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップの特徴量の主成分を出力する処理を説明する図である。 図17は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類を詳細に説明する図である。 図18は、本発明の最良の実施の形態に係る動画検索装置において、χ2検定法による映像のショット分割処理を説明する図である。 図19は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ集合を生成する処理を説明する図である。 図20は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。 図21は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。 図22は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。 図23は、本発明の最良の実施の形態に係る動画検索装置において、ビジュアル信号特徴量算出処理を説明するフローチャートである。 図24は、本発明の最良の実施の形態に係る動画検索装置において、オーディオ信号特徴量算出処理を説明するフローチャートである。 図25は、本発明の最良の実施の形態に係る動画検索装置において、3次元DTWの格子点を説明する図である。 図26は、本発明の最良の実施の形態に係る動画検索装置において、局所パスを説明する図である。 図27は、本発明の最良の実施の形態に係る動画検索装置において、シーン間の類似度算出処理を説明するフローチャートである。 図28は、一般的なDTWによるパターン間の類似度の算出を説明する図である。 図29は、一般的なDTWによる経路長の算出を説明する図である。 図30は、本発明の最良の実施の形態に係る動画検索装置において、ベース音に基づく類似度算出理を説明する図である。 図31は、本発明の最良の実施の形態に係る動画検索装置において、ベース音に基づく類似度算出処理を説明するフローチャートである。 図32は、各音名が有する周波数を説明するテーブルである。 図33は、本発明の最良の実施の形態に係る動画検索装置において、音高の推定処理を説明する図である。 図34は、本発明の最良の実施の形態に係る動画検索装置において、ベース音以外の楽器に基づく類似度算出理を説明する図である。 図35は、本発明の最良の実施の形態に係る動画検索装置において、他楽器に基づく類似度算出処理を説明するフローチャートである。 図36は、本発明の最良の実施の形態に係る動画検索装置において、2分割フィルタバンクによる低周波・高周波成分の算出処理を説明する図である。 図37は、本発明の最良の実施の形態に係る動画検索装置において、2分割フィルタバンクによって算出された低周波・高周波成分を説明する図である。 図38は、本発明の最良の実施の形態に係る動画検索装置において、全波整流を施す前の信号と、全波整流を施した後の信号と、を説明する図である。 図39は、本発明の最良の実施の形態に係る動画検索装置において、低域通過フィルタによって処理される信号を説明する図である。 図40は、本発明の最良の実施の形態に係る動画検索装置において、ダウンサンプリングを説明する図である。 図41は、本発明の最良の実施の形態に係る動画検索装置において、平均値除去処理を説明する図である。 図42は、Sin波形の自己相関を説明する図である。 図43は、本発明の最良の実施の形態に係る動画検索装置において、自己相関関数の算出処理およびDTWを用いたリズム関数の類似度の算出処理を説明するフローチャートである。 図44は、本発明の最良の実施の形態に係る動画検索装置において、透視変換を説明する図である。 図45は、本発明の変形例に係る動画検索装置の機能ブロック図である。 図46は、本発明の変形例に係る動画検索装置が出力する画面例であって、類似画像を表示した画面例である。 図47は、本発明の変形例に係る動画検索装置の嗜好入力部のインタフェースを説明する図である。 図48は、本発明の変形例に係る表示処理を説明するフローチャートである。 図49は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、動画検索装置に入力されるクエリ画像データを説明する図である。 図50は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データと、検索対象の動画データとのシーン毎の類似度を示したグラフである。 図51は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似するシーンとの類似度を示す3次元DTWのパスを示した図である。 図52は、本発明の実施の形態に係るビデオ信号に基づく類似画像の検索のシミュレーションにおいて、動画検索装置に入力されるクエリ画像データを説明する図である。 図53は、本発明の実施の形態に係るビデオ信号に基づく類似画像の検索のシミュレーションにおいて、動画検索装置に入力される検索対象の画像データを説明する図である。 図54は、本発明の実施の形態に係るビデオ信号に基づく類似画像の検索シミュレーションにおいて、クエリ画像データと、検索対象の動画データとのシーン毎の類似度を示したグラフである。 図55は、本発明の実施の形態に係るビデオ信号に基づく類似画像の検索シミュレーションにおいて、クエリ画像データに類似するシーンとの類似度を示す3次元DTWのパスを示した図である。 図56は、本発明の実施の形態に係るオーディオ信号に基づく類似画像の検索のシミュレーションにおいて、動画検索装置に入力されるクエリ画像データを説明する図である。 図57は、本発明の実施の形態に係るオーディオ信号に基づく類似画像の検索のシミュレーションにおいて、動画検索装置に入力される検索対象の画像データを説明する図である。 図58は、本発明の実施の形態に係るオーディオ信号に基づく類似画像の検索シミュレーションにおいて、クエリ画像データと、検索対象の動画データとのシーン毎の類似度を示したグラフである。 図59は、本発明の実施の形態に係るオーディオ信号に基づく類似画像の検索シミュレーションにおいて、クエリ画像データに類似するシーンとの類似度を示す3次元DTWのパスを示した図である。
 次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。
 本発明の最良の実施の形態において、「ショット」とは、カメラ切り換えから、次のカメラ切り換えまでの間の連続する画像フレーム列である。CGアニメーションや合成映像についても、カメラを撮影環境の設定に置き換えて、同様の意味で使用される。ここで、ショット間の不連続点を「カット点」と呼ぶ。「シーン」とは、意味を持つ連続したショットの集まりである。「クリップ」とは、ビデオ信号を、所定のクリップ長で分割した信号である。このクリップには、複数のフレームが含まれることが好ましい。「フレーム」とは、動画像データを構成する静止画像データである。
(最良の実施の形態)
 図1に示す本発明の最良の実施の形態に係る動画検索装置1は、動画データのシーンから、クエリ動画データに類似するシーンを検索する。本発明の最良の実施の形態に係る動画検索装置1は、動画データベース11中に存在する動画データをシーンに分類して、クエリ動画データと各シーンとの類似度を算出し、クエリ動画データに類似するシーンの検索を行う。
 より具体的には、本発明の最良の実施の形態において、メタデータを用いることなく、映像の構成要素である音響・ビジュアル信号の解析結果を用いて映像間の類似度を算出し、類似映像の検索を行うシステムを説明する。また、それらの検索・分類結果を3次元の空間上に可視化するシステムを説明する。本発明の最良の実施の形態では映像に対して、オーディオ信号およびビジュアル信号を含むビデオ信号に基づいた映像情報の類似度と、オーディオ信号に基づいた音楽情報の類似度の算出の2つの類似度算出機能を持つ。さらに、この機能を用いることで、クエリ映像を与えた場合に自動で類似映像の検索を可能とする。また、クエリ映像が存在しない場合、データベース中の映像の自動分類を行い、注目する映像に対して類似する映像をユーザに呈示することを可能とする。このとき、本発明の最良の実施の形態では、映像間の類似度に基づいて、3次元の空間上に映像を配置することで、空間の距離によって映像の類似性を理解することが可能なユーザインターフェースを実現している。
 図1に示す本発明の最良の実施の形態に係る動画検索装置1は、動画データベース11から複数の映像を読み込み、シーン分割部21において、全ての映像に対して、同一の内容を含む区間であるシーンの算出を行う。さらに、分類部22において、得られる全てのシーン間で類似度の算出を行い、検索部25でクエリ画像と類似度の高い動画像データを抽出し、表示部28において、類似したシーンを持つ映像同士が近くなるように3次元空間へ映像を配置する。尚、クエリの映像が与えられた場合は、これを中心に処理が行われる。ここで本発明の最良の実施の形態に係る動画検索装置1の分類部22において、(1)「映像情報に注目した検索・分類」に基づくビデオ信号類似度算出部23と、(2)「音楽情報に注目した検索・分類」に基づくオーディオ信号類似度算出部24の2つに分岐し、それぞれにおいて異なるアルゴリズムを用いて類似度が算出される。
 本発明の最良の実施の形態において、動画検索装置1は、図2および図3に示す表示画面P101および表示画面P102を、表示装置に表示する。表示画面P101は、クエリ画像表示部A101を備えている。動画検索装置1は、クエリ画像表示部A101に表示された動画に類似するシーンを、動画データベース11から検索して、表示画面P102を表示装置に表示する。表示画面P102には、類似画像表示部A102aおよびA102bを備えている。これらの類似画像表示部A102aおよびA102bには、動画データベース11から検索された動画データのシーンであって、クエリ画像表示部A101に表示されたシーンに類似するシーンが表示されている。
(動画検索装置のハードウェア構成)
 図4に示すように、本発明の最良の実施の形態に係る動画検索装置1は、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103及び入出力インタフェース109が、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107及びリムーバブルディスク108が接続されている。
 中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102から動画検索装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラム及びデータを読み出してRAM103にロードするとともに、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。
 入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109及びバス110を介して中央処理制御装置101に送信される。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置101からバス110及び入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置であり、動画検索装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
 記憶装置107は半導体記憶装置や磁気ディスク装置であって、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
 本発明の最良の実施の形態に係る動画検索装置1の記憶装置107には、図1に示すように、動画検索プログラムが記憶されるとともに、動画データベース11、ビデオ信号類似度データ12およびオーディオ信号類似度データ13が記憶される。又、動画検索プログラムが動画検索装置1の中央処理制御装置101に読み込まれ実行されることによって、シーン分割部21、分類部22、検索部25および表示部28が、動画検索装置1に実装される。
(動画検索装置の機能ブロック)
 動画データベース11は、複数の動画データが記憶される。この動画データベース11に記憶される動画データは、本発明の最良の実施の形態に係る動画検索装置1によって分類される対象となる。動画データベース11に記憶される動画データは、オーディオ信号およびビジュアル信号を含むビデオ信号によって構成されている。
 シーン分割部21は、記憶装置107から動画データベース11を読み出して、動画データのビジュアル信号をショットに分割して、ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力する。より具体的には、シーン分割部21は、動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出する。さらにシーン分割部21は、動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出する。さらにシーン分割部21は、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。
 図5を参照して、シーン分割部21の処理の概要を説明する。まず、動画データベース11を読み出して、動画データベース11に記憶された各動画データについて、ステップS101ないしステップS110の処理を繰り返す。
 ステップS101において、動画データベース11に記憶された動画データの一つについて、オーディオ信号を抽出して読み出し、ステップS102において、オーディオ信号をクリップに分割する。次に、ステップS102で分割された各クリップについて、ステップS103ないしステップS105の処理を繰り返す。
 ステップS103において、クリップの特徴量が算出され、ステップS104において、PCA(主成分分析)によってこの特徴量のパラメータが削減される。次に、ステップS104において削減された後の特徴量に基づいて、MGDに基づいて、クリップのオーディオクラスの帰属確率が算出される。ここでオーディオクラスは、無音、音声、音楽等のオーディオ信号の種類を表すクラスである。
 ステップS103ないしステップS105において、オーディオ信号の各クリップについて、オーディオクラスの帰属確率が算出されると、ステップS106において、ステップS101で取得したオーディオ信号に対応するビジュアル信号を抽出して読み出し、ステップS107において、カイ二乗検定法に基づいて、映像データをショットに分割する。このカイ二乗検定法においては、音声信号ではなく、ビジュアル信号の色ヒストグラムが用いられる。ステップS107において、動画データが複数のショットに分割されると、各ショットについて、ステップS108およびステップS109の処理を繰り返す。
 ステップS108において、各ショットに対するオーディオクラスへの帰属確率が算出される。このとき、ショットに対応するクリップについて、ステップS105で算出されたオーディオクラスへの帰属確率が取得される。各クリップのオーディオクラスへの帰属確率の平均値が、ショットに対するオーディオクラスへの帰属確率として算出される。さらにステップS109において、各ショットに対するファジィ推論により、各ショットクラスの出力変数およびメンバシップ関数の値が算出される。
 ステップS107で分割された全てのショットについて、ステップS108およびステップS109の処理が実行されると、ステップS110において、ファジィ推論による各ショットクラスの出力変数およびメンバシップ関数の値に基づいて、各ショットを連結して、動画データをシーンに分割する。
 分類部22は、ビデオ信号類似度算出部23とオーディオ信号類似度算出部24を備えている。
 ビデオ信号類似度算出部23は、シーン分割部21によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データ12を生成する。ここでシーン間の類似度は、あるシーンと他のシーンとのビジュアル信号の類似度である。例えば、動画データベース11にn個のシーンが格納されているとすると、第1のシーンについて、第2のシーンとのビジュアル信号の類似度、第3のシーンとのビジュアル信号の類似度・・・第nのシーンとのビジュアル信号の類似度が算出される。より具体的には、ビデオ信号類似度算出部23は、シーン分割部21によって分割されたそれぞれのシーンについて、シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、ビジュアル信号の特徴量を算出する。さらにビデオ信号類似度算出部23は、クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、オーディオ信号の特徴量を算出する。さらにビデオ信号類似度算出部23は、クリップ単位のビジュアル信号とオーディオ信号の特徴量に基づいて、シーン間の類似度を算出して、ビデオ信号類似度データ12として、記憶装置107に記憶する。
 図6を参照して、ビデオ信号類似度算出部23の処理の概要を説明する。
 シーン分割部21によって分割された各動画データの各シーンについて、ステップS201ないしステップS203の処理が繰り返される。まず、ステップS201において、シーンに対応するビデオ信号がクリップに分割される。つぎに、ステップS201で分割された各クリップについて、ステップS202において、ビジュアル信号の特徴量が算出され、ステップS203において、オーディオ信号の特徴量が算出される。
 各動画データの各シーンについて、ビジュアル信号の特徴量およびオーディオ信号の特徴量が算出されると、ステップS204において、シーン間の類似度が算出される。さらにステップS205において、ステップS204においてシーンの類似度を、シーン間の映像情報の類似度であるビデオ信号類似度データ12として、記憶装置107に記憶する。
 オーディオ信号類似度算出部24は、シーン分割部21によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データ13を生成する。ここで類似度は、あるシーンと他のシーンとの、ベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度である。例えば、動画データベース11にn個のシーンが格納されているとすると、第1のシーンについて、第2のシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度、第3のシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度・・・第nのシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度が算出される。より具体的には、オーディオ信号類似度算出部24は、ベース音に基づく類似度を算出する際、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出する。また、オーディオ信号類似度算出部24は、ベース音を除く楽器に基づく類似度を算出する際、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出する。また、オーディオ信号類似度算出部24は、リズムに基づく類似度を算出する際、2分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する。
 図7を参照して、オーディオ信号類似度算出部24の処理の概要を説明する。
 シーン分割部21によって全ての動画データから分割され、得られる全てのシーンのうち、任意の2つのシーンについて、ステップS301ないしステップS303の処理が繰り返される。まず、ステップS301において、シーンに対応するオーディオ信号のベース音に基づく類似度が算出される。つぎに、ステップS302において、オーディオ信号の、ベース音以外の楽器に基づく類似度が算出される。さらに、ステップS303において、オーディオ信号のリズムに基づく類似度が算出される。
 つぎに、ステップS304において、ステップS301ないしステップS303において算出したベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度が、シーン間の音響情報の類似度であるオーディオ信号類似度データ13として、記憶装置107に記憶される。
 次に、図8を参照して、図7のステップS301におけるベース音に基づく類似度算出処理の概要を説明する。まず、ステップS311において、所定の帯域通過フィルタを介して、ベース音が抽出される。ここで所定の帯域とは、ベース音に対応する帯域であって、例えば40Hzないし250Hzである。
 つぎに、ステップS312において、時間および周波数に注目して、重み付きパワースペクトルを算出し、ステップS313において、重み付きパワースペクトルを用いてベースの音高が推定される。さらに、ステップS314において、DTWを用いて、ベース音高の類似度が算出される。
 図9を参照して、図7のステップS302におけるベース以外の楽器に基づく類似度算出処理の概要を説明する。まず、ステップS321において、音名が示す周波数のエネルギーが算出される。ここでは、ベース音より高く、かつ音名を持つ周波数のエネルギーについて、各音名が示す周波数のエネルギーが算出される。
 つぎに、ステップS322において、各音名が示す周波数のエネルギーについて、全周波数域に対するエネルギーの割合が算出される。さらにステップS323において、DTWを用いて、音名のエネルギー割合の類似度が算出される。
 図10を参照して、図7のステップS303におけるリズムに基づく類似度算出処理の概要を説明する。まず、ステップS331において、2分割フィルタバンクによって、所定回数の分割を繰り返すことにより、低周波成分および高周波成分が算出される。これにより、複数種類の楽器音によるリズムを推定することができる。
 さらに、ステップS332ないしステップS335の処理によって、包絡線を検波して、各信号の概形が取得される。具体的には、ステップS332において、ステップS331で取得した波形について全波整流が施され、ステップS333において、低域通過フィルタが施される。さらにステップS334において、ダウンサンプリングされ、ステップS335において、平均値が除去される。
 包絡線の検波が終了すると、ステップS336において、自己相関関数が算出され、ステップS337において、DTWを用いて、リズム関数の類似度が算出される。
 検索部25は、ビデオ信号類似度検索部26と、オーディオ信号類似度検索部27を備える。表示部28は、ビデオ信号類似度表示部29と、オーディオ信号類似度表示部30を備える。
 ビデオ信号類似度検索部26は、ビデオ信号類似度データ12に基づいて、シーン間の類似度が一定の閾値よりも小さいシーンを検索する。ビデオ信号類似度表示部29は、ビデオ信号類似度検索部26によって検索された各シーンについて該類似度に対応する座標を取得して表示する。
 図11を参照して、ビデオ信号類似度検索部26およびビデオ信号類似度表示部29の処理を説明する。
 図11(a)を参照して、ビデオ信号類似度検索部26の処理を説明する。まず、記憶装置107からビデオ信号類似度データ12が読み出される。さらに、シーン分割部21によって分割された各シーンについて、ステップS401においてクエリ動画シーンとのビジュアル信号の類似度が取得されるとともに、ステップS402においてクエリ動画シーンとのオーディオ信号の類似度が取得される。
 つぎにステップS403において、ステップS401およびステップS402で取得された類似度のうち、所定値以上の類似度のシーンを検索する。ここでは、類似度に基づいて閾値処理する場合について説明するが、類似度が高いものから所定数のシーンが検索されても良い。
 図11(b)を参照して、ビデオ信号類似度表示部29の処理を説明する。ステップS451において、ビデオ信号類似度検索部26によって検索された各シーンについて、三次元空間における座標が算出される。ここで三次元空間における軸は、3次元DTWによって得られる3つの座標になる。ステップS452において、ステップS451で算出された各シーンの座標が透視変換され、各シーンの動画像フレームのサイズが決定される。ステップS453において、表示装置に表示される。
 オーディオ信号類似度検索部27は、オーディオ信号類似度データ13に基づいて、オーディオ信号の類似度が一定の閾値よりも小さいシーンを検索する。オーディオ信号類似度表示部30は、オーディオ信号類似度検索部27によって検索された各シーンについて類似度に対応する座標を取得して表示する。
 図12を参照して、オーディオ信号類似度検索部27およびオーディオ信号類似度表示部30の処理を説明する。
 図12(a)を参照して、オーディオ信号類似度検索部27の処理を説明する。まず、記憶装置107からオーディオ信号類似度データ13が読み出される。さらに、シーン分割部21によって分割された各シーンについて、ステップS501においてクエリ動画シーンとのベース音に基づく類似度が取得される。ステップS502においてクエリ動画シーンとの非ベース音に基づく類似度が取得される。ステップS501においてクエリ動画シーンとのリズムに基づく類似度が取得される。
 つぎにステップS504において、ステップS501ないしステップS503で取得された類似度のうち、所定値以上の類似度のシーンを検索する。ここでは、類似度に基づいて閾値処理する場合について説明するが、類似度が高いものから所定数のシーンが検索されても良い。
 図12(b)を参照して、オーディオ信号類似度表示部30の処理を説明する。ステップS551において、オーディオ信号類似度検索部27によって検索された各シーンについて、三次元空間における座標が算出される。ここで三次元空間における軸は、ベース音に基づく類似度、ベース以外の楽器に基づく類似度およびリズムに基づく類似度である。ステップS552において、ステップS551で算出された各シーンの座標が透視変換され、各シーンの動画像フレームのサイズが決定される。ステップS553において、表示装置に表示される。
 以下、図1に示す各ブロックについて詳述する。
(シーン分割部)
 次に、図1に示すシーン分割部21の処理を説明する。
 シーン分割部21は、データベース中に存在する映像間で類似度を算出するために、映像信号をシーン単位に分割する。本発明の最良の実施の形態では、動画データベース11から得られる映像信号のオーディオ信号と動画像フレームの両方を用いることで、シーンの算出を可能とする。
 シーン分割部21は、まずオーディオ信号をクリップと呼ばれる小区間毎に分け、各々に対して特徴量の算出を行い、さらにPCA(主成分分析)による特徴量の削減を行う。次に、オーディオ信号の種類を表すオーディオクラス(無音、音声、音楽等)を準備し、各クリップがそれらのクラスに属する確率、つまり帰属確率をMGDにより求める。さらに、本発明の最良の実施の形態では、映像中のビジュアル信号(フレーム)に対し、χ2検定を用いることで、1台のカメラで連続的に撮影された区間であるショットの分割を行う。また、各ショットに含まれるオーディオ信号のクリップについて、オーディオクラスへの帰属確率の平均を求めることで、ショットとしてのオーディオクラスへの帰属確率が得られる。本発明の最良の実施の形態では、得られる帰属確率から各ショットに対してファジィ推論を行うことで、ショットの種類を表すショットクラスのファジィ推論値を算出する。最後に、隣接する全てのショット間において、ファジィ推論値の差分を求め、その値が小さな連続区間を1つのシーンとして求める。
 このように、処理対象であるショットが各ショットクラスに属する度合い(ファジィ推
論値)が得られる。オーディオ信号の種類によっては、ユーザの主観評価により、ショットの分類結果が異なる可能性がある。例えば、音楽の付加された音声において、背景に存在する音楽が非常に小さな音量である場合、そのオーディオ信号を「音楽付きの音声」に分類すべきか、それとも主となる「音声」に分類すべきかは、ユーザの要求によって異なる。そこで、ショットに対して、全てのショットクラスタのファジィ推論値を持たせ、最終的にその差分を求めることで、ユーザの主観評価を考慮したシーンの分割が可能となる。
 ここで、本発明の最良の実施の形態に係るシーン分割21では、処理対象信号をオーディオクラスに分類する。ここで、オーディオ信号には音楽や音声などの単一のオーディオクラスから構成されるものの他に、背景に音楽が存在する環境下での音声(雑音付き音声)や、背景に雑音が存在する環境下での音声(雑音付き音声)等、複数の種類のオーディオクラスから構成されるものも数多く存在し、このようなオーディオ信号では、どのオーディオクラスに分類されるかの境界を定めることが困難である。そこで、本発明の最良の実施の形態ではファジィ推論による推論値を用いることにより、処理対象信号が各オーディオクラスに属する度合いを高精度に算出し、分類を行う。
 本発明の最良の実施の形態に係るシーン分割部21について、具体的なアルゴリズムを説明する。
 本発明の最良の実施の形態では、まずPCAとMGDを用いて、オーディオ信号が以下に定義する4種類のオーディオクラスに属する程度(以降、帰属確率)を算出する。
・ 無音(silence: Si)
・ 音声(speech: Sp)
・ 音楽(music: Mu)
・ 雑音(noise: No)
 各オーディオクラスへの帰属確率は、図13に示す「CLS#1」から「CLS#3」の3つの分類処理を施し、それらの分類結果を用いて算出される。ここで、CLS#1からCLS#3までの各分類処理は、全て同一の手順であり、処理対象信号および2種類の参照信号に対し、「特徴量の算出」、「PCAの適用」、及び「MGDの算出」の3つの処理を行う。ただし、図14に示すように、参照信号は分類処理の目的に応じてSi、Sp、Mu、Noのいずれか(あるいは複数)のオーディオ信号を含む。以下、各処理について説明する。
 まず、オーディオ信号クリップの特徴量算出処理を説明する。この処理は、図5のステップS103に相当する。
 シーン分割部21は、処理対象であるオーディオ信号、および図14に示した2種類の参照信号から、以下に示すオーディオ信号のフレーム単位(フレーム長:W)の特徴量、およびクリップ単位(クリップ長:W,ただしW>W)の特徴量を算出する。
- フレーム単位の特徴量:
ボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率
- クリップ単位の特徴量:
非無音率、零比率
 さらに、シーン分割部21は、オーディオ信号のフレーム単位の特徴量のクリップ内での平均値および標準偏差を算出し、それらをクリップ単位の特徴量に加える。
 この処理を図15を参照して説明する。
 まず、ステップS1101において、1クリップのオーディオ信号について、オーディオ信号のフレームに分割する。つぎに、ステップS1101で分割した各オーディオ信号のフレームについて、ステップS1102ないしステップS1107において、ボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率を算出する。つぎに、ステップS1108において、1クリップに含まれる各オーディオ信号のフレームのボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率の各特徴量に対する平均値と標準偏差を算出する。
 一方、ステップS1109において、1クリップのオーディオ信号について、非無音率を算出し、ステップS1110において、零比率を算出する。
 ステップS1111において、ステップS1108ないしステップS1110において算出した平均値、標準偏差、非無音率および零比率の各特徴量を統合して、クリップにおけるオーディオ信号の特徴量として出力する。
 つぎに、PCAによる特徴量削減処理を説明する。この処理は、図5のステップS104に相当する。
 シーン分割部21は、処理対象信号のクリップから算出された特徴量、および2種類の参照信号から算出されたクリップ単位の特徴量を正規化し、PCAを施す。PCAを施すことで、相関の高い特徴量間の影響を軽減することが可能となる。また、PCAより得られた主成分のうち、その固有値が1以上であるものを以降の処理で使用することで、計算量の増加やヒューズの現象を回避することが可能となる。
 ここで用いられる参照信号は、分類されるクラスに応じて異なる。例えば、図13に示す「CLS#1」においては、Si+Noと、Sp+Muとに分類される。このとき用いられる2種類の参照信号の一つは、無音(Si)のみで構成される信号と、雑音(No)のみで構成される信号をと、重ならないように時間軸方向に連結した信号である。もう一つの参照信号は、音声(Sp)のみで構成される信号と、音楽(Mu)のみで構成される信号をと、重ならないように時間軸方向に連結した信号である。また、「CLS#2」において用いられる2種類の参照信号は、無音(Si)のみで構成される信号と、雑音(No)のみで構成される信号である。同様に、「CLS#3」において用いられる2種類の参照信号は、音声(Sp)のみで構成される信号と、音楽(Mu)のみで構成される信号である。
 ここで、主成分分析(PCA)は複数の変数間の共分散(相関)を少数の合成変数で表わす手法である。共分散行列の固有値問題の解として得ることができる。本発明の最良の実施の形態では、処理対象信号から得られた特徴量に対し主成分分析を施すことで、相関の高い特徴量間の影響を軽減している。また、得られた主成分のうち、その固有値が1以上であるものを選択して用いる事で計算量の増加やヒューズの現象を回避している。
 この処理を図16を参照して説明する。図16(a)は、処理対象信号のクリップの主成分を出力する処理で、図16(b)は、参照信号1および参照信号2のクリップの主成分を出力する処理である。
 図16(a)に示す処理を説明する。まず、ステップS1201において、図15を参照して説明した処理に従って算出された処理対象信号のクリップの特徴量が入力される。
 つぎに、ステップS1204において、クリップ単位の特徴量を正規化し、ステップS1205において、PCA(主成分分析)を施す。さらにステップS1206において、固定値が1以上となる主成分の軸を算出し、処理対象信号のクリップの主成分を出力する。
 図16(b)に示す処理を説明する。まず、ステップS1251において、参照信号1のクリップから算出される特徴量を入力するとともに、ステップ1252において、参照信号2のクリップから算出される特徴量を入力する。
 つぎに、ステップS1253において、参照信号1および参照信号2のそれぞれについて、クリップ単位の特徴量を正規化し、ステップS1254において、PCA(主成分分析)を施す。さらにステップS1255において、固定値が1以上となる主成分の軸を算出し、参照信号1および参照信号2について、一つの主成分を出力する。
 ここで入力される参照信号1および参照信号2は、上述したように、クラスの分類処理によって異なる。後述するCLS#1~3ごとに、の各分類処理において用いられる全ての参照信号1および参照信号2について、予め図16(b)の処理が実行される。
 次に、MGDによるクリップのオーディオクラスへの帰属確率の算出処理を説明する。この処理は、図5のステップS105に相当する。
 PCAによる特徴量削減処理で得られた主成分を用いて、MGDを算出する。
 ここで、MGD(マハラノビス汎距離)は、多変数間の相関に基づき算出される距離である。MGDでは、処理対象信号と参照信号との特徴ベクトル群との距離をマハラノビス汎距離により算出する。これにより、主成分分析で得られた主成分の分布形状を考慮した距離を算出することが可能となる。
 まず、処理対象信号において、PCAによる特徴量削減処理で得られた主成分を要素とする特徴ベクトルf(c)(c=1,・・・,3;CLS#1~3に対応)と、同様にして算出される2種類の参照信号の特徴ベクトル群との
Figure JPOXMLDOC01-appb-M000001
を、次式により算出する。
Figure JPOXMLDOC01-appb-M000002
 ただし、
Figure JPOXMLDOC01-appb-M000003
は、それぞれ参照信号iから算出された特徴ベクトルの平均ベクトル、および共分散行列を表す。この
Figure JPOXMLDOC01-appb-M000004
は、固有空間における主成分の分布形状を考慮した距離尺度となる。そこで、この
Figure JPOXMLDOC01-appb-M000005
を用いて、処理対象信号が参照信号1、2と同一のクラスタに属する帰属度
Figure JPOXMLDOC01-appb-M000006
を次式で定義する。
Figure JPOXMLDOC01-appb-M000007
 CLS#1~3の各分類処理において、上記3つの処理を行うことで、帰属度
Figure JPOXMLDOC01-appb-M000008
が得られる。そこで、各オーディオクラス(Si, Sp, Mu, No)への帰属確率
Figure JPOXMLDOC01-appb-M000009
を、以下で定義する。
Figure JPOXMLDOC01-appb-M000010
 上式は、CLS#1からCLS#3の各分類処理において、
Figure JPOXMLDOC01-appb-M000011
を、参照信号1、2と同一のクラスタに分類される確率とみなし、それらを積算することで、Si、Sp、Mu、Noのオーディオクラスに属する確率を算出することを表す。従って、この帰属確率
Figure JPOXMLDOC01-appb-M000012
から、処理対象であるオーディオ信号がどのオーディオクラスにどの程度属しているかを知ることが可能となる。
 この処理を図17を参照して説明する。この処理は、処理対象信号の各クリップに対して実行される。
 まず、ステップS1301において、処理対象信号の各クリップの主成分を要素とするベクトルを入力する。ここで入力されるベクトルは、上述した図16(a)によって算出されたデータである。
 次に、CLS#1の分類処理として、ステップS1302ないしステップS1305の処理を行う。具体的には、ステップS1302において、処理対象信号と参照信号1との距離を算出し、ステップS1303において、処理対象信号が参照信号1のクラスタに属する帰属度を算出する。さらに、ステップS1304において、処理対象信号と参照信号2との距離を算出し、ステップS1305において、処理対象信号が参照信号2のクラスタに属する帰属度を算出する。
 さらに、CLS#2の分類処理として、ステップS1306ないしステップS1309の処理を行う。具体的には、ステップS1306において、処理対象信号と参照信号1との距離を算出し、ステップS1307において、処理対象信号が参照信号1のクラスタに属する帰属度を算出する。さらに、ステップS1308において、処理対象信号と参照信号2との距離を算出し、ステップS1309において、処理対象信号が参照信号2のクラスタに属する帰属度を算出する。
 ここで、ステップS1310において、ステップS1303およびステップS1307で算出された帰属度に基づいて、オーディオクラスSiへの帰属確率Pが算出される。同様に、ステップS1311において、ステップS1303およびステップS1309で算出された帰属度に基づいて、オーディオクラスNoへの帰属確率Pが算出される。
 一方、CLS#3の分類処理として、ステップS1312ないしステップS1315の処理を行う。具体的には、ステップS1312において、処理対象信号と参照信号1との距離を算出し、ステップS1313において、処理対象信号が参照信号1のクラスタに属する帰属度を算出する。さらに、ステップS1314において、処理対象信号と参照信号2との距離を算出し、ステップS1315において、処理対象信号が参照信号2のクラスタに属する帰属度を算出する。
 ここで、ステップS1316において、ステップS1305およびステップS1313で算出された帰属度に基づいて、オーディオクラスSpへの帰属確率Pが算出される。同様に、ステップS1317において、ステップS1305およびステップS1315で算出された帰属度に基づいて、オーディオクラスMuへの帰属確率Pが算出される。
 次に、χ2検定法による映像のショット分割処理を説明する。この処理は、図5のステップS107に相当する。
 本発明の最良の実施の形態においては、分割χ検定法を用いて、ショットカットを得る。分割χ 検定法は、まず動画像のフレームを4×4=16個の同じ大きさの矩形領域に分割し、各領域ごとに64色種の色ヒストグラムH(f,r,b)を作成する。ただし、fはビデオ信号のフレーム番号、rは領域番号、bはヒストグラムのビン数を表す。隣接する2枚の動画像のフレームの色ヒストグラムから、次式で算出される評価値E(r=1,・・・,16)を算出する。
Figure JPOXMLDOC01-appb-M000013
さらに、算出された16個の値E(r=1,・・・,16)の中で値の小さい8の総和Esum算出し、Esumが予め設定した閾値よりも大きな値を示す時刻に、ショットカットが存在すると判断する。
 この処理を図18を参照して説明する。
 まずステップS1401において、ビジュアル信号のフレームのデータを取得する。次に、ステップS1402において、ステップS1401で取得したビジュアル信号のフレームを、4×4=16個の矩形領域に分割し、ステップS1403において、各領域について、64色種の色ヒストグラムH(f,r,b)を作成する。
 さらにステップS1404において、隣接するビジュアル信号のフレーム間で、色ヒストグラムの差分評価Eを算出する。各矩形領域について算出された差分評価Eの中で、小さい8つの総和Esumを算出する。
 ステップS1406において、Esumが閾値よりも大きな値を示す時刻で、ショットカットを判定し、ショット区間を出力する。
 このように、本発明の最良の実施の形態においては、隣接する区間で大きく色ヒストグラムが変化する時刻をショットカットと判定することにより、ショット区間を出力している。
 次に、各ショットに対するオーディオクラスへの帰属確率の算出処理を説明する。この処理は、図5のステップS108に相当する。
 本発明の最良の実施の形態においては、まず単一のショット内における各オーディオクラスへの帰属確率の平均値
Figure JPOXMLDOC01-appb-M000014
を次式で算出する。
Figure JPOXMLDOC01-appb-M000015
ただし、Nはショット内のクリップの総数、kはショット内のクリップ番号、
Figure JPOXMLDOC01-appb-M000016
はk番目のクリップにおける帰属確率
Figure JPOXMLDOC01-appb-M000017
を表す。これら4つの平均値
Figure JPOXMLDOC01-appb-M000018
の値を観察することで、分類対象であるショットが無音、音声、音楽、雑音のうち、どの種類のオーディオ信号を多く含むかが分かる。
 しかしながら、このままでは音楽付き音声や雑音付き音声のクラスが存在せず、音楽付き音声や雑音付き音声が含まれていた場合、分類精度が劣化する危険性がある。ところで、従来手法で算出する帰属確率は、オーディオ信号の各クリップが、各オーディオクラスに属する度合いを表しており、音楽付き音声や雑音付き音声のオーディオ信号を処理対象とした場合、音声のオーディオクラスの帰属確率だけでなく、音楽や雑音のオーディオクラスの帰属確率も高い値を示す。そこで、
Figure JPOXMLDOC01-appb-M000019
に対し、ファジィ推論を行うことで、各ショットを無音、音声、音楽、雑音、音楽付き音声、雑音付き音声の6種類のショットクラスに分類する。
 本発明の最良の実施の形態においては、まず処理対象信号を無音、音声、音楽、雑音の4つのオーディオクラスに分類する。しかしながら、この4種類のクラスだけでは、背景に音楽が存在する環境下での音声(雑音付き音声)や、背景に雑音が存在する環境下での音声(雑音付き音声)等、複数の種類のオーディオ信号が混在する場合に、分類精度が劣化する。そこで、本発明の最良の実施の形態では、上記4つのオーディオクラスに加え、新たに音楽付き音声、雑音付き音声のクラスを含む、6つのオーディオクラスへの分類を行う。これにより、分類精度を向上させ、より高精度に類似シーンを検索することができる。
 まず、以下に示す11段階のファジィ変数を用意する。
 NB (Negative Big)
 NBM (Negative Big Medium)
 NM (Negative Medium)
 NSM (Negative Small Medium)
 NS (Negative Small)
 ZO (Zero)
 PS (Positive Small)
 PSM (Positive Small Medium)
 PM (Positive Medium)
 PBM (Positive Big Medium)
 PB (Positive Big)
ここで、それぞれのファジィ変数に対し、次式で定義される三角型のメンバシップ関数を定め、図19に示すように、各変数を割り当てることで、ファジィ集合を生成する。
Figure JPOXMLDOC01-appb-M000020
ただし、a=0.1, b={0, 0.1, ・ ・ ・ , 0.9, 1.0}とする。(式1-8)で算出した
Figure JPOXMLDOC01-appb-M000021
を(式1-9)に代入し、各入力変数のメンバシップ関数の値
Figure JPOXMLDOC01-appb-M000022
を算出する。
 次に、各ショットに対するファジィ推論処理を説明する。この処理は、図5のステップS109に相当する。
 本発明の最良の実施の形態においては、各ショットに対するオーディオクラスへの帰属確率の算出処理で設定された入力変数、およびメンバシップ関数の値
Figure JPOXMLDOC01-appb-M000023
に対し、図20および図21に示すファジィ制御規則
Figure JPOXMLDOC01-appb-M000024
を適用し、各ショットクラスの出力変数
Figure JPOXMLDOC01-appb-M000025
およびメンバシップ関数の値
Figure JPOXMLDOC01-appb-M000026
を算出する。
 次に、ファジィ推論値を用いたシーン分割処理を説明する。この処理は、図5のステップS110に相当する。
 本発明の最良の実施の形態においては、ファジィ推論処理で算出される各ショットクラスに属する度合
Figure JPOXMLDOC01-appb-M000027
を用いて、映像信号のシーン分割を行う。
 ここで、ηをショット番号とし、隣接するショット間の距離D(η,η)を次式で定義する。
Figure JPOXMLDOC01-appb-M000028
 この距離D(η,η)があらかじめ設定した閾値Thよりも高い値を示す場合、ショット間の類似度は低く、ショットの境界にシーンカットが存在すると判断する。逆に、距離D(η,η)が閾値Thよりも低い値を示す場合、ショット間の類似度が高く、同一のシーンに属すると判断する。これにより、本発明の最良の実施の形態ではショット間の類似度を考慮したシーン分割が可能となる。
 ここで、各ショットに対するオーディオクラスへの帰属確率の算出処理、各ショットに対するファジィ推論処理およびファジィ推論値を用いたシーン分割処理を、図22参照して説明する。
 まずステップS1501において、各ショットの全クリップにおける帰属確率の平均値を算出する。つぎにステップS1502において、11段階のファジィ係数を読み出し、各ショットに対するメンバシップ関数を算出する。ステップS1501およびステップS1502の処理は、各ショットに対するオーディオクラスへの帰属確率の算出処理に相当する。
 ステップS1503において、入力変数およびメンバシップ関数の値から、出力およびその出力のメンバシップ関数の値を算出する。このとき、図20および図21に示すファジィ制御規則が参照される。ステップS1503の処理は、各ショットに対するオーディオクラスへの帰属確率の算出処理に相当する。
 さらにステップS1504において、異なるショット間でのメンバシップ関数の距離を算出し、ステップS1505において、その距離が閾値よりも大きいか判定する。その距離が閾値よりも大きい場合、そのフレーム間で映像信号のシーンカットを判定し、シーン区間を出力する。ステップS1504およびステップS1505の処理は、ファジィ推論値を用いたシーン分割処理に相当する。
 このように、本発明の最良の実施の形態においては、χ2検定法によるビジュアル信号のショット分割処理によって分割された各ショットについて、各ショットに属するクリップのオーディオ信号についてオーディオクラスへの帰属確率を算出し、ファジィ推論することにより、ファジィ推論値を用いてシーンを分割することができる。
(ビデオ信号類似度算出部)
 次に、図1に示すビデオ信号類似度算出部23の処理を説明する。
 ビデオ信号類似度算出部23は、映像情報に注目した検索・分類を行うため、シーン分割部21で算出される各シーンに対して、他のシーンとの類似度を算出する処理について説明を行う。本発明の最良の実施の形態では、動画データベース11中に存在する映像のシーン間について、ビジュアル(動画像)信号の特徴量とオーディオ信号の特徴量から、それらの類似度を類似度として算出する。本発明の最良の実施の形態では、まず映像中のシーンをクリップに分割し、各々に対してビジュアル信号の特徴量の抽出、およびオーディオ信号の特徴量の抽出を行う。さらに、これらの特徴量に対して3次元のDTWを設定することで、シーン間の類似度の算出を可能とする。
 DTWは,2つの1次元信号に伸縮を施し,信号間の類似度を算出する手法である。このため,信号の伸縮が頻繁に生じる信号間の比較に有効である。
 本発明の最良の実施の形態では、従来2次元で定義されているDTWを3次元で再定義し、新たにそれらを用いるためのコストの設定を行っている。このとき、コストをビジュアル信号およびオーディオ信号のそれぞれに設定することにより、2つのシーン間で動画像、音響の一方が異なる場合においても、類似した映像を検索・分類することが可能となる。さらに、DTWの特徴からシーン間の時間尺が異なる場合や、シーン間でビジュアル信号とオーディオ信号の開始時刻にずれが生じた場合においても、適切にシーン間の類似部分を対応付けることが可能となる。
 本発明の最良の実施の形態に係るビデオ信号類似度算出部23について、具体的なアルゴリズムを説明する。
 本発明の最良の実施の形態では、映像に含まれるビジュアル信号(動画像信号)とオーディオ信号(音響信号)の双方に着目してシーン間の類似度を算出する。まず、本発明の最良の実施の形態では、与えられたシーンを短時間のクリップに分割し、シーンをクリップの一次元列として表現する。次に、各クリップからビジュアル信号による特徴量、およびオーディオ信号による特徴量をそれぞれ抽出する。最後に、DTWを用いてクリップ列間の特徴量の類似部分を対応付けし、得られる最適経路をシーン間の類似度として定義する。ここで本発明の最良の実施の形態では、DTWを新たに3次元に拡張して用いることで、ビジュアル信号とオーディオ信号の協調処理によるシーン間の類似度の算出を可能とした。以下、各処理について説明する。
 まず、ビデオ信号のクリップへの分割処理を説明する。この処理は、図6のステップS201に相当する。
 本発明の最良の実施の形態では、処理対象であるシーンを、短時間T[sec]のクリップに分割する。
 次に、ビジュアル信号の特徴量抽出処理を説明する。この処理は、図6のステップS202に相当する。
 本発明の最良の実施の形態では、ビデオ信号のクリップへの分割処理で得られる各クリップからビジュアル信号の特徴量を抽出する。本発明の最良の実施の形態では、ビジュアル信号の特徴として画像の色成分に着目し、各クリップの動画像の所定のフレームからHSV表色系における色ヒストグラムを算出し特徴量に用いる。ここで、動画像の所定のフレームとは、例えば各クリップの動画像の先頭のフレームである。また、人間の知覚システムにおいて色相がより重要なことに着目し、色相、彩度、明度のヒストグラムのビン数を、例えばそれぞれ12、2、2とする。よって、クリップ単位から得られるビジュアル信号の特徴量は全部で48次元になる。本実施例においては、色相、彩度、明度のヒストグラムのビン数が、12、2、2の場合について説明するが、任意に設定されても良い。
 この処理を図23を参照して説明する。
 まず、ステップS2101において、クリップの動画像の所定のフレームを抽出し、ステップS2102において、RGB表色系からHSV表色系へ変換する。
 つぎにステップS2103において、例えば、H軸を12、S軸を2、V軸を2に分割した3次元色ヒストグラムを生成して、この3次元色ヒストグラムを当該クリップのビジュアル信号の特徴量として算出する。
 次に、オーディオ信号の特徴量抽出処理を説明する。この処理は、図6のステップS203に相当する。
 本発明の最良の実施の形態において、ビデオ信号のクリップへの分割処理で得られる各クリップからオーディオ信号の特徴量を抽出する。本発明の最良の実施の形態では、オーディオ信号の特徴量として10次元の特徴量を用いた。具体的には、クリップに含まれるオーディオ信号を固定長T[sec](T<T)のフレーム毎に解析を行う。
 まず、各クリップからオーディオ信号の特徴量を抽出する際に、オーディオ信号に含まれる音声部分の影響を軽減するために、オーディオ信号の各フレームを音声フレームと背景音フレームに分類する。ここで、オーディオ信号における音声部分の特徴は大きな振幅と、大部分がフォルマント周波数と呼ばれる低周波数のパワーを持つことに着目し、短時間のエネルギー(以降、STE)と短時間のスペクトル(以降、STS)を用いてオーディオ信号の各フレームを分類する。
 ここで、オーディオ信号の各フレームから得られるSTEとSTSを次式で定義する。
Figure JPOXMLDOC01-appb-M000029
ここで、ηはオーディオ信号のフレーム番号、Fはオーディオ信号のフレームの移動幅を表す移動回数、x(m)はオーディオの離散信号、ω(m)はmが時間枠の中にあれば1を、そうでなければ0を取る。また、STS(k)は周波数が
Figure JPOXMLDOC01-appb-M000030
のときの短時間のスペクトルであり、fは離散サンプリング周波数である。もし、STEの値が閾値Thを越えていて、尚かつ440-4000Hzの範囲でのSTSの値が閾値THを越えていれば、そのオーディオ信号のフレームは音声フレームとして、越えていなければ背景音フレームとして分類する。
 これらの分類されたオーディオ信号のフレームを用いて、以下に示すクリップ単位の10次元の特徴量を算出する。
Figure JPOXMLDOC01-appb-M000031
 ここで、平均エネルギーとは、クリップ内のオーディオ信号の全フレームが持つエネルギーの平均である。
Figure JPOXMLDOC01-appb-M000032
 ここで、低エネルギー率(低STE率)とは、クリップ内のエネルギーの平均以下のエネルギーを持つ背景音フレームの割合である。
Figure JPOXMLDOC01-appb-M000033
 ここで、平均零交差率とは、クリップ内の全背景音フレーム内における隣り合うオーディオ信号の符号が変化する割合の平均である。
Figure JPOXMLDOC01-appb-M000034
 ここで、スペクトルフラックス密度とは、クリップ内のオーディオ信号が持つ周波数スペクトルの時間推移の指標である。
e)音声フレーム率VFR:
 ここで、VFRはクリップに含まれるオーディオ信号の全フレームにおける音声フレームの割合である。
Figure JPOXMLDOC01-appb-M000035
 ここで、平均サブバンドエネルギー比率とは、クリップ内のオーディオ信号のオーディオスペクトルに対し全周波数でのパワースペクトルの総和に対しての、0-630、630-1720、1720-4400、4400-11000(Hz)のそれぞれの範囲におけるパワースペクトルの割合である。
g)STE標準偏差ESTD:
 STEの標準偏差ESTDは、次式で定義される。
Figure JPOXMLDOC01-appb-M000036
 ここで、エネルギー(STE)標準偏差とは、クリップ内のオーディオ信号の全フレームが持つエネルギーの標準偏差である。
 この処理を図24を参照して説明する。
 まずステップS2201において、オーディオ信号の各クリップについて、短時間のオーディオ信号のフレームへ分割される。つぎにステップS2202において、オーディオ信号のフレーム内のオーディオ信号が持つエネルギーが算出されるとともに、ステップS2203において、フレーム内のオーディオ信号が持つスペクトルが算出される。
 ステップS2204において、ステップS2201で分割されたオーディオ信号の各フレームが、音声フレームと背景音フレームに分類される。この分類されたオーディオ信号のフレームに基づいて、ステップS2205において、上述したa)からg)の各特徴量が算出される。
 次に、3次元DTWを用いたシーン間の類似度算出処理を説明する。この処理は、図6のステップS204に相当する。
 本発明の最良の実施の形態では、ビジュアル信号の特徴量抽出処理およびオーディオ信号の特徴量抽出処理で得られたクリップ単位の特徴量を用いて、シーン間の類似度を定義する。一般的に、クリップ列の比較にDTWを用いて類似部分を対応づけ、得られる最適経路をシーン間の類似度として定義している。しかしながら、この場合、DTWに用いる局所コストをクリップ間の全特徴量の差に基づき決定しているため、シーン間において片方の信号のみが類似している場合や、シーン間においてビジュアル信号とオーディオ信号の開始時刻にズレが発生した場合などに適切な類似度が得られない可能性がある。
 そこで、本発明の最良の実施の形態では、DTWを3次元に拡張して新たな局所コストと局所パスを設定する事で、これらの問題を解決する。以下、(処理4-1)、(処理4-2)でそれぞれ3次元DTWで用いられる局所コストと局所パスについて説明する。さらに、(処理4-3)で3次元DTWにより算出されるシーン間の類似度について説明する。
(処理4-1)局所コストの設定
 本発明の最良の実施の形態では、まず、3次元DTWの3つの要素として、クエリシーンのクリップτ(1≦τ≦T)、ターゲットシーンのビジュアル信号のクリップt(1≦t≦T)、ターゲットシーンのオーディオ信号のクリップt(1≦t≦T)をそれぞれ用いる。この3つの要素に対し、3次元DTW上の各格子点における局所コストd(τ,tx,)を以下の3種類で定義する。
Figure JPOXMLDOC01-appb-M000037
ここで、fv,tは時刻tのクリップに含まれるビジュアル信号から得られる特徴ベクトル、fA,tは時刻tのクリップに含まれるオーディオ信号から得られる特徴ベクトルであり、各時刻において特徴量の総和が1となるようにそれぞれ正規化されている。
(処理4-2)局所パスの設定
 本発明の最良の実施の形態で用いられる3次元DTW上の各格子点は、図25および図26に示すように直前の7つの格子点からそれぞれ局所パス#1~#7で連結されている。以下に各局所パスが持つ役割を示す。
a)局所パス#1および#2について
 クリップ単位による伸縮を許容するパスである。パス#1はクエリシーンのクリップの時間軸方向への伸縮を、パス#2はターゲットシーンのクリップの時間軸方向への伸縮をそれぞれ許容する役割を持つ。
b)局所パス#3ないし#5について
 類似部分の対応付けを行うパスである。クリップ間において、パス#3はビジュアル信号を、パス#4はオーディオ信号を、パス#5は両方の信号を類似部分としてそれぞれ対応付けを行う役割を持つ。
c)局所パス#6および#7について
 両信号の同期によるズレを許容するパスである。パス#6はシーン間におけるビジュアル信号の時間軸方向へのズレを、パス##7はシーン間におけるオーディオ信号の時間軸方向へのズレをそれぞれ許容する役割を持つ。
(処理4-3)シーン間の類似度の定義
 上述した(処理4-1)および(処理4-2)で説明した局所コストと局所パスを用いて、累積コストS(τ,tx,)を直前の7つの格子点からの累積コストと移動コストの和が最小となる格子点を用いて、以下で定義する。
Figure JPOXMLDOC01-appb-M000038
Figure JPOXMLDOC01-appb-M000039
ただし、α、β、γはそれぞれ対応する局所パスを用いた場合にかかる移動コストを表す定数である。これにより、最終的なシーン間の類似部分の対応付けと、その対応付けによるシーン間の類似度Dは次式により定義される。
Figure JPOXMLDOC01-appb-M000040
 この処理を図27を参照して説明する。
 まず、ステップS2301において、3次元DTWを用いたシーン間の特徴量に基づくマッチングを行う。具体的には、上記(式2-10)における{}内の7つの結果のうち、最小のものを選択する。
 つぎにステップS2302において、3次元DTWに必要な局所コストが設定され、ステップS2303において、局所パスが設定される。さらにステップS2304においてα、β、γの各移動コストする。αは、パス#1およびパス#2の移動コストであり、βは、パス#3およびパス#4の移動コストであり、γは、パス#6およびパス#7の移動コストである。
 さらにステップS2305において、マッチングによる最適経路をシーン間の類似度として算出する。
 このように、本発明の最良の実施の形態においては、ビジュアル信号の特徴量とオーディオ信号の特徴量に基づいて、3次元DTWを用いてシーン間の類似度を算出する。ここで3次元DTWを用いることにより、後述する表示部で、3次元座標を基づいてシーンの類似度を可視化することができる。
(DTWの概要)
 ここで、DTWの概要について説明する。
 本発明の最良の実施の形態における類似度算出処理で用いられるDTWの構成について説明を行う。DTWは、二つの一次元信号に伸縮を施し、信号間の類似度を算出する手法である。このため、時系列において伸縮の生じる信号等の比較に有効である。特に音楽信号では、演奏速度の変化が頻繁に発生することから、類似度より求められる類似度の算出にDTWを用いることは有効と考えられる。以降、類似度算出において、参照する信号を参照パターン、参照パターンとの類似度を求める信号を被参照パターンと呼ぶ。
 まず、DTWによるパターン間の類似度の算出について説明する。長さIの一次元の参照パターンに含まれる各要素を順にa,a,・・・aとし、長さJの被参照パターンに含まれる各要素を順にb,b,・・・bと表現する。さらに、各パターンの位置集合を{1,2,・・・,I},{1,2,・・・,J}で表現すると、パターンの各要素間の対応を決定する伸縮写像w:{1,2,・・・,I}->{1,2,・・・,J}は以下の性質を満たす。
a)wはパターンの始点、終点を一致させる。
Figure JPOXMLDOC01-appb-M000041
b)wは単調写像である。
Figure JPOXMLDOC01-appb-M000042
 このような写像wを用いたとき、パターン間の類似度の算出は図28における格子点(b,a)から格子点(b,a)までの最短経路の探索問題に置換することができる。そこで、DTWでは、「初期状態の最初の決定が何であろうとも、以後の決定は最初の遷移から生じた状態に関して適切でなければならない」という最適性の原理に基づいて上記の経路探索問題を解く。
 すなわち、全体の経路長を部分の経路長の和で求める。部分の経路長は、経路上の格子点(j,i)におけるコストd(j,i)および2つの格子点(j,i)、(b,a)間の移動コストcj,i(b,a)を用いて算出する。部分の経路長の算出を図29に示す。ここで、格子点上のコストd(j,i)は参照パターンと被参照パターンの間で対応する要素が異なる場合のペナルティである。また、移動コストcj,i(b,a)は参照パターンと被参照パターンの間で伸縮が生じた場合、格子点(b,a)から格子点(j,i)に移動するペナルティである。
 上記のコストに基づいて部分の経路長を算出し、経路全体のコストが最小となる部分経路を選択する。最後に、選択された部分経路毎のコストの和を算出することで、全体の経路長が得られる。以上より、パターンの部分毎の類似度からパターン全体の類似度を得ることが可能となる。
 本発明の最良の実施の形態においては、DTWをオーディオ信号に適用することから、オーディオ信号の類似度算出における特徴を考慮し、さらに詳細な類似度の算出法を決定する。
 本発明の最良の実施の形態では、音楽の特徴として、同一楽曲の演奏速度が異なる場合にも、楽譜上の音符が欠落することがない点に着眼する。この特徴を換言すると以下の2点で表現可能と考えられる。
a)被参照パターンが、参照パターンに伸縮のみを加えたパターンである場合、これらのパターンは同一と見なす。
b)被参照パターンと参照パターンが同一の場合、被参照パターンは参照パターンを欠落することなく含有する。
 上記の特徴を、格子点間の移動による類似度算出に適用すると、参照パターンに含まれる全ての要素について、被参照パターンに含まれる要素との対応を決定することを意味する。これより、伸縮写像wは次式に示す傾斜制限を加えることが可能となる。
Figure JPOXMLDOC01-appb-M000043
 本発明の最良の実施の形態では、以上の条件に従ってDTWによる類似度の算出を行う。これより類似度は、(式2-15)を用いて経路長を漸化的に求めることで算出可能となる。
Figure JPOXMLDOC01-appb-M000044
(オーディオ信号類似度算出部)
 次に、図1に示すオーディオ信号類似度算出部24の処理を説明する。
 オーディオ信号類似度算出部24は、シーン分割部21で算出されるシーンに対して音楽情報に注目した検索・分類を行うため、類似度の算出を行う。本発明の最良の実施の形態では、動画データベース11からシーン分割部21で得られる全てのシーン中で、オーディオ信号のベース音に基づく類似度、他楽器に基づく類似度、リズムに基づく類似度を算出する。本発明の最良の実施の形態では、オーディオ信号類似度算出部24は、オーディオ信号に対して以下の三種類の類似度算出を行う。
・ ベース音に基づく類似度算出
・ 他楽器に基づく類似度算出
・ リズムに基づく類似度算出
 ベース音に基づく類似度算出について、本発明の最良の実施の形態では、オーディオ信号に対して、ベース音を含むと考えられる周波数の信号のみを求めるため、帯域通過フィルタを施す。次に、得られる信号から各時刻におけるスペクトルを求めるため、時間・周波数に注目した重み関数を用いて、重み付きパワースペクトルの算出を行う。さらに、得られる各時刻のパワースペクトルにおいてピークを持つ周波数を求めることで、ベース音高の推定を可能とする。さらに、全ての2シーン間について、そのオーディオ信号のベース音高の推移を求め、これをDTWへ入力することで、二つの信号の類似度の算出を実現する。
 他楽器に基づく類似度算出について、本発明の最良の実施の形態では、オーディオ信号に対して、「ド」、「レ」、「ミ」、「ソ#」等、音名12要素を示す周波数のエネルギーをパワースペクトルから算出する。さらに、これら12要素のエネルギーを正規化することで、エネルギーの割合の時間推移を算出する。このようにして得られるエネルギーの割合についてDTWを用いることで、本発明の最良の実施の形態では全ての2シーン間で、オーディオ信号の他楽器に基づく類似度算出が可能となる。
 リズムに基づく類似度算出について、本発明の最良の実施の形態では、まず、オーディオ信号に対して、2分割フィルタバンクを用いることで、異なる周波数を含む信号をそれぞれ算出する。次に、各周波数を含む信号に対して、“信号の各時刻における接線を共有する曲線である” 包絡線の検波を行い、信号の概形を得る。尚、この処理は、「全波整流」、「低域通過フィルタの適用」、「ダウンサンプリング」、「平均値除去」を順に施すことで、実現される。さらに、これらの信号をすべて足し合わせて得られる信号に対して、自己相関関数を求め、これをリズム関数として定義する。最後に、全ての2シーン間で、それらのオーディオ信号のリズム関数をDTW へ入力することで、二つの信号の類似度の算出を実現する。
 以上に示す、3つの類似度算出処理を施すことで、本発明の最良の実施の形態では3つの類似度を楽曲間の類似性を表す指標として求めることが可能となる。
 このように本発明の最良の実施の形態では、音楽の構成要素であるメロディーに着眼している。音楽におけるメロディーとは、複数の音源により構成される基本周波数の時間推移である。本発明の最良の実施の形態では、このメロディーの定義に従い、メロディーがベース音と、それ以外の楽器音から構成されると仮定する。さらに、この仮定に基づき、ベース音が示すエネルギーの推移、およびベース以外の楽器が示すエネルギーの推移についてマッチング処理を施すことで類似度を得る。ベース音が示すエネルギーには、ベース音が存在する周波数域のパワースペクトル、その他の楽器音が示すエネルギーには、C、D、E・・・等の音名が示す周波数のエネルギーを用いる。上記のエネルギーを用いると、音楽信号における以下2点の特徴に有効と考えられる。
 まず、楽器音は基本周波数の倍音を多く含む(以降、倍音構造)ため、周波数域が高くなるに従い、基本周波数の特定が困難となる点である。次に、楽曲中には発音の際に発生する擦弦音等の雑音が含まれ、音階上に存在しない周波数が楽器音の基本周波数として推定され得る点である。
 本発明の最良の実施の形態は、ベース以外の楽器音のエネルギーとして、各音名が示す周波数のエネルギーを用いるため、上記の倍音構造、雑音の影響を軽減可能とすることができる。また、低周波数域に基本周波数を持つベース音を併せて用いることで、倍音構造の影響をより軽減した類似度算出を可能とすることができる。さらに、類似度の算出にはDTWを用いるため、メロディーの伸縮や欠落が生じた場合にも類似度算出をすることができる。以上により、本発明の最良の実施の形態はメロディーに基づいて楽曲間の類似度を算出することができる。
 さらに、音楽の構成では、メロディーに加えてリズムが重要な要素として知られる。そこで、本発明の最良の実施の形態では、音楽の構成要素として新たにリズムに着眼し、リズムから楽曲間の類似度を算出する。また、類似度算出には、DTWを用いることで、楽曲の時間軸方向への伸縮を許容し、適切な類似度の算出を可能とする。
 本発明の最良の実施の形態に係るオーディオ信号類似度算出部24は、映像中の音楽情報、つまりオーディオ信号に対して、「ベース音に基づく類似度」、「他楽器に基づく類似度」、「リズムに基づく類似度」の算出を行う。
 まず、本発明の最良の実施の形態においては、音楽のメロディーの推移に着眼し、楽曲の類似度算出を可能とする。本発明の最良の実施の形態では、メロディーがベース音、およびベース以外の楽器音から構成されると仮定する。これは、ベース音と他楽器音により同時に発音される音がメロディーの特徴を決定する和音や調の指標となるためである。
 本発明の最良の実施の形態では上記の仮定に基づき、それぞれの楽器音のエネルギーにDTWを適用することで類似度の算出を可能とする。
 さらに、本発明の最良の実施の形態においては、楽曲のリズムに基づく新たな類似度を算出する。音楽におけるリズムは、メロディー、コード(和音)と併せて音楽の三要素と呼ばれ、楽曲の細かな構成を決定する重要な要素として知られる。そこで、本発明の最良の実施の形態では、リズムに着眼して楽曲間の類似度を定義する。
 本発明の最良の実施の形態は、音楽信号の自己相関関数に基づいてリズムを表す定量値(以降、リズム関数)を新たに定義し、リズム関数にDTWを適用することで類似度の算出を行う。これにより、本発明の最良の実施の形態は、音楽の構成要素として重要なリズムに基づく類似度の算出を実現可能とする。
 以下、「ベース音に基づく類似度」、「他楽器に基づく類似度」、「リズムに基づく類似度」のそれぞれについて、詳述する。
(ベース音に基づく類似度算出)
 オーディオ信号類似度算出部24において、ベース音に基づく類似度算出処理を説明する。この処理は、図7のステップS301および図8に相当する。
 本発明の最良の実施の形態では、楽曲中のベース音の推移として、ベース音が示す音高の推移を用いる。音高とは、楽譜上に記載される各音符が示す基本周波数とする。したがって、音高の推移はベース音に含まれる主要な周波数におけるエネルギーの推移を意味する。
 ベース音に基づく類似度算出においては、図30に示すように、まず、帯域通過フィルタによってベース音が抽出される。このときのパワースペクトルを、G11に示す。このパワースペクトルから、重み付きパワースペクトルを算出し、G12に示すように、それぞれの音階をあてはめる。さらに、G13に示すように、音階ごとに、ヒストグラムを算出する。このとき、ヒストグラムで最大値を持つ「B」が、ベース音の音階として選択される。
 図30においては、パワースペクトルから音階をあてはめ、その後、ベース音の音階を選択する場合について説明したが、この方法には限られない。具体的には、パワースペクトルから、周波数毎のヒストグラムを取得し、最大値の周波数から音階を取得しても良い。
 ベース音に基づく類似度算出処理について、具体的なアルゴリズムを以下に示す。尚、各処理は図8の各ステップに対応する。
 まず、通過帯域フィルタによるベース音の抽出処理を説明する。この処理は、図8のステップS311に相当する。
 この処理では、オーディオ信号に対し、ベース音の周波数域40-250Hzを通過域とする帯域通過フィルタを施し、得られた信号の各時刻でパワースペクトルを算出する。
 つぎに、時間・周波数に注目した重み付きパワースペクトルの算出処理を説明する。この処理は、図8のステップS312に相当する。
 この処理では、通過帯域フィルタによるベース音の抽出処理で得られるパワースペクトルの時間軸方向、および周波数軸方向に、ガウス関数に基づく重みを付加する。ここで、時間軸関数の重みを付加することにより、対象時刻のパワースペクトルが大きく利用される。周波数軸方向の重みを付加することにより、各音階(C、C#、D、・・・、H)に重みを置くことで、音階上の信号が選択される。ここで、ガウス関数による重みとは、exp{-(x-μ)/(2σ)}である(μ=平均、σ=標準偏差)。最後に、重み付けされた各時刻のパワースペクトルにおいて最大のエネルギーを与える周波数を音高として推定する。時刻t(0≦t≦T)、周波数fにおいて、パワースペクトルより算出されるエネルギーをP(t、f)とし、重み付けされたパワースペクトルを(式3-1)に示すR(t、f)で定義する。
Figure JPOXMLDOC01-appb-M000045
 ここで、
Figure JPOXMLDOC01-appb-M000046
Figure JPOXMLDOC01-appb-M000047
また、(式3-4)で示すFは、MIDI(Musical Instrument Digital Interface)のm番目のノートにおける周波数を表す。
 (式3-1)に示すR(t、f)は、(式3-2)の時間軸方向の重みにより、一定時間持続する基本周波数を音高と推定可能とする。また、(式3-3)に示す周波数軸方向の重みにより、音階上に存在する周波数のみを音高として推定可能とする。
 つぎに、重み付きパワースペクトルを用いたベースの音高推定処理を説明する。この処理は、図8のステップS313に相当する。
 この処理では、R(t、f)の各時刻tにおいて最大値を与える周波数fをベースの音高とし、B(t)と表す。
 つぎに、DTWを用いたベース音高の類似度算出処理を説明する。この処理は、図8のステップS314に相当する。
 この処理では、データベース中の全ての二映像間においてオーディオ信号のベース音高を推定し、上述したDTWによる類似度算出を行う。ここで、上述したDTWの説明において、(式2-15)中で用いる各コストは以下のように設定する。
Figure JPOXMLDOC01-appb-M000048
ただし、α>βとする。これにより、メロディーの不一致によるコストと比較して、演奏速度の変化等に伴うメロディーのずれに対するコストが小さくなる。以上により得られた類似度をDと表す。
 ここで、図31を参照して、本発明の最良の実施の形態に係るベース音に基づく類似度算出処理を説明する。
 まず、動画データベース11の各シーンについて、ステップS3101ないしステップS3109の処理が実行される。
 ステップS3101において、1つのシーンにフーリエ変換をする。ステップS3102において、40-250Hzを通過域とするフィルタを施す。ステップS3103において、各時刻について、パワースペクトルP(s,f)を算出する。
 一方、ステップS3104において、時間軸方向の重みを算出するとともに、ステップS3105において、周波数軸方向の重みを算出する。さらにステップS3106において、ステップS3104およびステップS3105において算出された時間軸方向の重みおよび周波数軸方向の重みに基づいて、重み付きパワースペクトルを算出して、ステップS3107においてR(t,f)を出力する。さらに、各時刻tでR(t、f)の最大値を与える周波数fを求め、B(t)とする。ステップS3109において、このB(t)をベース音の時間推移として出力する。
 各シーンについて、ステップS3101ないしステップS3109の処理が終了すると、ステップS3110ないしステップS3112において、任意の2シーンのベース音について、類似度を算出する。
 まずステップS3110において、所定の時刻間において、(式3-6)においてコストd(i,j)を決定するために、ベース音の一致不一致を算出する。次に、ステップS3111において、(式3-6)および(式3-7)に従って、DTWにおけるコストd(i,j)およびCi,j(b,a)を設定する。ステップS3112において、DTWによる類似度を算出する。
(他楽器に基づく類似度算出)
 オーディオ信号類似度算出部24において、他楽器に基づく類似度算出処理を説明する。この処理は、図7のステップS302および図9に相当する。
 一般的な音楽の構成では、主にベース音が楽曲の最低音となるため、その他の楽器音はベース音の周波数域より高い周波数を示す。また、ベース音より高い周波数域で、各音名は図32の周波数を持ち、各周波数の2(k=1,2,・・・)倍の周波数も同一の音名として扱われる。
 そこで、本発明の最良の実施の形態では、ベース以外の楽器音が示すエネルギーを、ベース音より高く、かつ音名を持つ周波数のエネルギーとする。さらに、各音名が示す周波数のエネルギーには、図32の2倍の周波数が示すエネルギーの和を用いる。これにより、本発明の最良の実施の形態では、複数の楽器による倍音構造を軽減し、音高の推定が困難な周波数域に存在する楽器音についても類似度算出に用いることを可能とする。
 このように、ある音階X(例えば、C、C#、D、またはH等)について注目するとき、その音は、1オクターブ上、2オクターブ上と、オクターブ単位で同様に存在する。ここで、ある音階の周波数をfxと表す場合、図33に示すように、1オクターブ上、2オクターブ上・・・の各音は、それぞれ、2fx、4fx・・・・で与えられる。
 以下で詳細を説明する。なお、オーディオ信号は信号長T秒、サンプリングレートfとし、時刻t(0≦t≦T))、周波数fに対するエネルギーをパワースペクトルより算出し、P(t、f)と表す。
 他楽器に基づく類似度算出においては、図34に示すように、まず、音名が示す周波数のエネルギーが抽出される。具体的には、後述する(式4-1)のエネルギーPx(t)をG21に示す。G22に示すように、このエネルギーP(t)から、それぞれの音階をあてはめる。さらに、G23に示すように、音階ごとに、ヒストグラムを算出する。G23においては、各音階について、4オクターブ分のパワースペクトルを加算した結果、具体的には(式4-1)により得られるPx(t)を示している。
 図34に示す処理において、CからHまでの各12音階について、4オクターブ分の周波数のエネルギーP(t)、PC#(t)・・・・P(t)を算出する。
 図34においては、パワースペクトルから音階をあてはめ、その後、ベース音の音階を選択する場合について説明したが、この方法には限られない。具体的には、パワースペクトルから、周波数毎のヒストグラムを取得し、最大値の周波数から音階を取得しても良い。
 具体的なアルゴリズムを以下に示す。尚、各処理は図9の各ステップに対応する。
 まず、音名が示す周波数のエネルギーの算出処理を説明する。この処理は、図9のステップS321に相当する。
 パワースペクトルから、各音名が示す周波数のエネルギーを算出する。図32において音名Xに対応する周波数をfとして、音名Xが示す周波数のエネルギーP(t)を次式で定義する。
Figure JPOXMLDOC01-appb-M000049
ただし、Kは
Figure JPOXMLDOC01-appb-M000050
を越えない任意の整数とする。(式4-1)により各音名が示す周波数のエネルギーを定義することで、低周波数域に存在する音の倍音の影響が軽減可能となる。
 次に、エネルギー割合の算出処理を説明する。この処理は、図9のステップS322に相当する。
 音名が示す周波数のエネルギーの算出処理で得られた各音名が示す周波数のエネルギーを全周波数域に対するエネルギーの割合で表現する。これにより、音名毎に時間軸方向での比較が可能となり、推移を得ることが可能となる。音名Xが示す周波数のエネルギーの割合px(t)は次式で示される。
Figure JPOXMLDOC01-appb-M000051
以上を全てのt、Xについて施し、得られたpx(t)をベース以外の楽器音におけるエネルギーの推移として用いる。
 次に、DTWを用いた音名エネルギー割合の類似度算出処理を説明する。この処理は、図9のステップS323に相当する。
 データベース中の全ての二映像間においてオーディオ信号のベース以外の楽器音のエネルギーを算出し、それぞれpx(t)、px(t)と表す。これらを用いて各音名毎にDTWによる類似度算出を行う。したがって、類似度は音名の数である12だけ得られる。そこで、ベース以外の楽器音の類似度は音名毎に得られた類似度の和により定義する。すなわち、音名Xについて得られる類似度をDaとすると、ベース以外の楽器による音の類似度Daは次式で表される。
Figure JPOXMLDOC01-appb-M000052
なお、DTWによる類似度算出に用いるコストは以下のように設定する。
Figure JPOXMLDOC01-appb-M000053
 (式4-3)により、全ての音名が示す周波数のエネルギーの推移を用いた類似度算出が可能となる。また、(式4-4)に示すコストを設定することで、エネルギーの大きな周波数に対応する音名が、類似度全体に与える影響を増加する。これにより、メロディーを構成する主要な周波数成分を反映した類似度算出が可能となる。
 ここで、図35を参照して、本発明の最良の実施の形態に係る他楽器に基づく類似度算出処理を説明する。
 まず、動画データベース11の各シーンについて、ステップS3201ないしステップS3206の処理が実行される。
 ステップS3201において、1つのシーンにフーリエ変換をする。ステップS3202において、各時刻のパワースペクトルを算出し、ステップS3203において、音名Xが示す周波数エネルギーPx(t)を算出して、px(t)を算出する。
 一方、ステップS3204において、全周波数のエネルギーを算出する。さらにステップS3205において、ステップS3203で算出された音名が示す周波数のエネルギーPx(t)と、ステップS3204で算出された全周波数のエネルギーに基づいて、エネルギーの割合px(t)を算出する。ステップS3206において、このエネルギーの割合px(t)を、ベース以外の楽器音におけるエネルギーとして出力する。
 各シーンについて、ステップS3201ないしステップS3206の処理が終了すると、ステップS3207ないしステップS3210において、任意の2シーンのエネルギーの割合について、類似度を算出する。
 まずステップS3207において、DTWにおけるコストd(i,j)およびCi,j(b,a)を設定し、ステップS3208において、DTWによって、各音名における2シーン間の類似度を算出する。ステップS3209において、ステップS3208において算出された全音名の類似度の和Daを算出する。ステップS3210において、この和Daを、ベース音以外の楽器による音の類似度として出力する。
(リズムに基づく類似度算出)
 オーディオ信号類似度算出部24において、リズムに基づく類似度算出処理を説明する。この処理は、図7のステップS303および図10に相当する。
 楽曲のテンポに代表される細かなリズムは、打楽器を含めた全ての楽器における発音時刻の間隔により定義される。また、大域的なリズムは、連続して発音される楽器音により構成される楽句や楽節等が出現する間隔により決定すると考えられる。したがって、リズムは上記の時間間隔によって与えられるため、一定の区間内では楽曲の時刻に依存しない。そこで、本発明の最良の実施の形態ではオーディオ信号が弱定常性であると仮定し、自己相関関数によりリズム関数を表現する。これにより、本発明の最良の実施の形態は、オーディオ信号を用いて楽曲のリズムを一意に表現し、リズムに基づく類似度の算出を可能とする。
 具体的なアルゴリズムを以下に示す。尚、各処理は図10の各ステップに対応する。
 まず、2分割フィルタバンクによる低周波・高周波成分の算出処理を説明する。この処理は、図10のステップS331に相当する。
 2分割フィルタバンクによる低周波・高周波成分の算出処理においては、2分割フィルタバンクを用いて、処理対象信号を階層的に高周波、および低周波へU回だけ分解し、高周波成分を含む側の信号をx(n)(u=1,・・・・U;,n=1,・・・・N)と表す。ここで、Nはxの信号長を示す。このようにして得られた各信号は、それぞれ異なる周波数帯を示すため、含まれる楽器の種類も異なると考えられる。したがって、得られた信号毎のリズムを推定し、結果を統合することで、複数種類の楽器音によるリズムが推定可能となる。
 図36を参照して、2分割フィルタバンクによる低周波・高周波成分の算出処理を説明する。ステップS3301において、2分割フィルタにより、低周波成分と高周波成分に分ける。次に、ステップS3301で分割された低周波成分を、ステップS3302において、さらに低周波成分と高周波成分に分ける。一方、ステップS3301で分割された高周波成分を、ステップS3303において、さらに低周波成分と高周波成分に分ける。このように所定回数(U回)だけ、2分割フィルタ処理を繰り返し、ステップS3304において、高周波成分を含む側の信号x(n)を出力する。図37に示すように、入力された信号の高周波成分が、2分割フィルタバンクによる低周波・高周波成分の算出処理によって出力されている。
 次に、包絡線の検波処理を説明する。この処理は、図10のステップS332ないしステップS335に相当する。以下の1)ないし4)は、それぞれ図10のステップS332ないしステップS335である。
 2分割フィルタバンクによる低周波・高周波成分の算出処理で得られた信号x(n)から包絡線を検波する。包絡線は、信号の各時刻における接線を共有する曲線であり、信号の概形を得ることを可能とする。したがって、包絡線検波により、楽器の発音に伴って音量が増加する時刻が推定可能となる。以下に包絡線を検波する処理の詳細を示す。
1)全波整流
 (式5-1)に示す全波整流を施し、信号y1u(n)(u=1,・・・・,U;,n=1,・・・・,N)を得る。
Figure JPOXMLDOC01-appb-M000054
 全波整流を施すことにより、図38(a)に示す波形から、図38(b)に示す波形を得ることができる。
2)低域通過フィルタの適用
 1)全波整流で得られた信号y1u(n)に対し、(式5-2)に示す単純な低域通過フィルタを施し、信号y2u(n)(u=1,・・・・,U;,n=1,・・・・,N)を得る。
Figure JPOXMLDOC01-appb-M000055
 ただし、αは遮断周波数を定める定数である。
 低域通過フィルタを通すことにより、低周波数の信号から、図39(a)に示す信号が出力される。具体的には、ローパスフィルタを通しても信号は変化せず、ハイパスフィルタを通すことにより、小刻みな波の信号が出力される。また、低域通過フィルタを通すことにより、高周波数の信号から、図39(b)に示す信号が出力される。具体的には、ハイパスフィルタを通しても信号は変化せず、ローパスフィルタを通すことにより、なだらかな波の信号が出力される。
3)ダウンサンプリング
 2)低域通過フィルタの適用で得られた信号y2u(n)に対し、(式5-3)に示すダウンサンプリングを施し、信号
Figure JPOXMLDOC01-appb-M000056
を得る。
Figure JPOXMLDOC01-appb-M000057
 ただし、sはサンプリング間隔を定める定数である。
 ダウンサンプリング処理をすることにより、図40(a)に示す信号から間引きされ、図40(b)に示す信号が出力される。
4)平均値除去
 3)ダウンサンプリングで得られた信号y3u(n)に(式5-4)を施し、信号の平均が0となる信号y(n)(u=1,・・・・,U;,n=1,・・・・,N)を得る。
Figure JPOXMLDOC01-appb-M000058
 ただし、E[y3u(n)]は信号y3u(n)の平均値を示す。
 平均値除去処理をすることにより、図41(a)に示す信号から、図41(b)に示す信号が出力される。
 次に、自己相関関数の算出処理を説明する。この処理は、図10のステップS336に相当する。
 包絡線の検波処理で得られた信号y(n)を2u-1倍のサンプリングレートにアップサンプリングし、信号長を等しくした後、すべてを加算する。これにより得られた信号をy(n)(n=1,・・・・,N)とする。ただし、Nは信号長を表す。さらに、y(n)を用いて、自己相関関数z(m)(m=0,・・・,N-1)を次式により算出する。
Figure JPOXMLDOC01-appb-M000059
 自己相関について、図42を参照して説明する。自己相関関数とは、信号とそれ自身をmだけ移動(シフト)した信号との相関を表しており、m=0のときに最大となる関数である。ここで、信号に繰り返しが存在する場合、その倍数位置(m)においてm=0の場合と同様に高い値を持つことが知られており、そのピークを検出することにより、繰り返しを見つけることが可能となる。
 自己相関を用いることにより、信号に含まれる繰り返しパターンを探し、ノイズに含まれる周期的な信号を抽出することが容易となる。
 このように、本発明の最良の実施の形態においては、様々なオーディオ信号の特徴を、自己相関関数から抽出されるファクターによって表すことができる。
 次に、DTWを用いたリズム関数の類似度の算出処理を説明する。この処理は、図10のステップS337に相当する。
 本発明の最良の実施の形態では、時刻tから一定時間の信号を用いて算出される上記の自己相関関数を時刻tにおけるリズム関数とし、楽曲間の類似度算出に利用する。リズム関数は、複数の周波数域において音量が増加する時刻の周期を表現するため、複数の楽器音によるリズムを含む。このため、本発明の最良の実施の形態では、局所的なリズムから大域的なリズムを含む複数のリズムを用いて楽曲の類似度算出を可能とする。
 次に、得られたリズム関数を用いて楽曲の類似度を算出する。そこで、まずリズムの類似度について考察する。楽曲におけるリズムは、演奏者や編曲者によって変動する。このため、同一の楽曲であっても、楽曲の全体、または一部が異なる速度で演奏される場合が存在する。このため、リズムに基づいて楽曲間の類似度を定義するには、リズムの変動を許容する必要がある。そこで、本発明の最良の実施の形態では、リズムに基づく類似度の算出に、メロディーに基づく類似度と同様にDTWを利用する。これにより、本発明の最良の実施の形態では、演奏者や編曲者によってリズムが変更された楽曲を変更前の楽曲と同一と判断可能とする。また、楽曲自体が異なる場合にも、類似するリズムを示す楽曲を類似楽曲として判断可能とする。
 図43を参照して、自己相関関数の算出処理およびDTWを用いたリズム関数の類似度の算出処理を説明する。
 ステップS3401において、包絡線が入力されると、処理対象のシーンの楽曲と参照楽曲について、ステップS3402ないしステップS3404の処理が繰り返される。
 まず、ステップS3402において、対象シーンのオーディオ信号に基づいて出力された包絡線をアップサンプリングする。ステップS3403において、y(n)をuに対して全て加算し、y(n)を取得し、ステップS3404において、y(n)の自己相関関数Z(m)を算出する。
 一方、参照楽曲における自己関数Z(m)が算出される。ステップS3405において、処理対象シーンの楽曲における自己関数Z(m)をリズム関数として、参照楽曲における自己関数Z(m)との類似度を、DTWを適用して算出して、ステップS3406において、類似度を出力する。
 表示部28は、ビデオ信号類似度表示部29と、オーディオ信号類似度表示部30を備える。
 表示部28は、検索部25による検索結果を表示するとともに、映像の再生、検索、および、検索・分類結果の可視化を行うユーザインターフェースである。表示部28のユーザインターフェースは、下記の各機能を有していることが好ましい。
・映像の再生
 動画データベース11に記憶されたの映像データを任意の位置に配置し再生する。このとき、再生中の映像の現在のフレーム位置より後方にあるフレームの画像を、3次元空間上で、映像の後方に配置し表示する。
 それぞれの画像を配置する位置を常に更新することで、画像が奥から手前に向かって流れているような視覚効果を得ることができる。
・シーン単位の頭出し
 シーン分割部21によって分割されたシーンを単位とした頭出しを行う。ユーザの操作により再生中のシーンの前後シーンの開始位置へ動画像のフレーム位置を移動する。
・検索結果の表示
 映像の再生中に検索操作を行うことで、検索部25によって類似シーン検索を行い、検索結果を表示する。検索部25による類似シーンの検索は、分類部によって求められた類似度に基づいて行う。表示部28は、クエリシーンとの類似度が一定の閾値よりも小さいシーンを、動画データベース11から抽出して、検索結果として表示する。
 表示する際はクエリシーンの表示位置を原点とした3次元空間で表示する。このとき検索結果の各シーンについて、類似度と対応した座標をそれぞれのシーンに与える。それらを、図44に示す透視変換を行うことにより、検索結果の各シーンの表示位置および大きさを決定する。
 ただし、分類部22のビデオ信号類似度算出部23において映像情報に注目した分類のアルゴリズムを用いた場合、3次元空間上の軸は、3次元DTWによって得られる3つの座標となる。また、分類部22のオーディオ信号類似度算出部24において音楽情報に注目した分類のアルゴリズムを用いた場合、3次元空間上の軸はそれぞれ、ベース音に基づく類似度、他の楽器に基づく類似度、リズムに基づく類似度となる。
 これにより、検索結果の中でクエリシーンとより類似したシーンがクエリシーンの近くに表示される。また、表示された検索結果の映像に対しても同様に、その映像を選択することによって、その時刻に再生中のシーンをクエリとした類似シーン検索を行うことができる。
 このように本発明では、映像情報に注目した分類および音楽情報に注目した分類のそれぞれについて、表示装置に表示する座標を変更させることにより、さらに分類パラメータを重み付けした分類結果を取得することができる。例えば、音楽情報に着目した分類について、リズムに基づく類似度が高い座標には、リズムの類似度が高く、ベース音や他の楽器に基づく類似度が低いシーンが表示される。
(効果)
 このような本発明の最良の実施の形態に係る動画検索装置1によれば、映像の構成要素であるオーディオ信号およびビデオ信号を用いて映像間の類似度を算出し、それらの分類結果を3次元の空間上に可視化することができる。本発明の最良の実施の形態では、映像に対して楽曲に基づいた類似度の算出、および音響・ビジュアル信号の双方に基づいた類似度の算出の2つの類似度算出機能を持ち、映像の異なる要素に注目することで、ユーザの好みに応じた検索モードを実現することができる。さらに、この機能を用いることで、クエリ映像を与えた場合に自動で類似映像の検索をすることができる。また、クエリ映像が存在しない場合、データベース中の映像の自動分類を行い、注目する映像に対して類似する映像をユーザに呈示することができる。
 さらに、本発明の最良の実施の形態では映像間の類似度に基づいて、3次元の空間上に映像を配置することで、空間の距離によって映像の類似性を理解することが可能なユーザインターフェースを実現することができる。具体的に、映像情報に注目した検索・分類のアルゴリズムを用いた場合、3次元空間上の軸は3次元DTWによって得られる3つの座標とし、音楽情報に注目した検索・分類のアルゴリズムを用いた場合、ベース音に基づく類似度、他の楽器に基づく類似度、リズムに基づく類似度とした。これにより、ユーザは3次元空間上において、映像および音楽のどの部分が似ているかを主観的に評価することができる。
(変形例)
 図45に示す本発明の変形例に係る動画検索装置1aは、z1に示す本発明の最良の実施の形態に係る動画検索装置1と比べて、検索部25aおよび表示部28aが異なる。本発明の最良の実施の形態に係る検索部25では、ビデオ信号類似度検索部26が、ビデオ信号類似度データ12に基づいてクエリ動画データに類似する動画データを検索するとともに、オーディオ信号類似度検索部27が、オーディオ信号類似度データ13に基づいてクエリ動画データに類似する動画データを検索する。さらに、本発明の最良の実施の形態に係る表示部28では、ビデオ信号類似度検索部29が、ビデオ信号類似度検索部26による検索結果を画面に表示するとともに、オーディオ信号類似度検索部30が、オーディオ信号類似度検索部27による検索結果を画面に表示する。
 一方、本発明の変形例においては、検索部25aが、ビデオ信号類似度データ12およびオーディオ類似度データ13に基づいてクエリ動画データに類似する動画データを検索し、表示部28aが、検索結果を画面に表示する。具体的には、検索部25aは、ユーザから嗜好データが入力されると、その嗜好データに従って、各シーンに対するビデオ信号類似度データ12およびオーディオ類似度データ13の類似度の割合を決定して、その割合に基づいた検索結果を取得する。表示部28aはさらに、検索部25aによって取得された検索結果を、画面に表示する。
 これにより、本発明の変形例においては、一つの操作で、複数のパラメータを考慮して算出された分類結果を出力することができる。
 検索部25aは、ユーザによる入力装置等の操作によって、ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得する。さらに表示部25aは、ビデオ信号類似度データ12およびオーディオ信号類似度データ13に基づいて、ビジュアル信号の特徴量とオーディオ信号の特徴量から算出されたシーン間の類似度と、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度とに対する重み係数を決定する。さらに検索部25aは、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する。
 表示部28aは、検索部25aによって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する。
 ここで、表示部28aにおいて各検索結果に与えられる3次元座標は、以下のように決定される。X座標は音楽情報に注目した類似度算出部において算出されたシーン間の類似度に対応する。Y座標は映像情報に注目した類似度算出部において算出されたシーン間の類似度に対応する。Z座標は嗜好パラメータを基に求められた最終的なシーン間の類似度に対応する。ただし、これらの座標は全ての検索結果が画面内に表示され、かつ、検索結果同士が重なり合わないように調整される。
 嗜好データを取得する際、例えば、検索部25aは、図46に示す表示画面P201を、表示装置に表示する。表示画面P201は、嗜好入力部A201を備えている。嗜好入力部A201は、分類部22のビデオ信号類似度算出部23およびオーディオ信号類似度算出部24によって算出されたビデオ信号類似度データ12およびオーディオ信号類似度データ13について、各類似度データをどのような重みで表示するかを決定するための嗜好パラメータの入力を受け付ける。嗜好入力部A201は、例えば、マウスによってクリックされた座標に基づいて重みが算出される。
 嗜好入力部A201は、例えば、図47に示すような軸を有している。図47においては、軸Pxおよび軸Pyで分割される4つの領域を有する。右側には、ビデオ信号類似度データ12に関連する類似度が関連づけられており、右上のセルには、音響による類似度が、右下のセルには、動画像による類似度が、関連づけられている。一方、左側には、オーディオ信号類似度データ13に関連する類似度が関連づけられており、左上のセルには、リズムによる類似度が、左下のセルには、他楽器およびベースによる類似度が関連づけられている。
 嗜好入力部A201のいずれかに、ユーザがマウスでクリックすると、クリック点のPxの座標に基づいて、検索部25aは、ビデオ信号類似度算出部23によって算出されたビデオ信号類似度データ12と、オーディオ信号類似度データ13によって算出されたオーディオ信号類似度データ13のそれぞれを重み付けする。さらに、検索部25aは、クリック点のPyの座標に基づいて、各類似度データについて、各パラメータの重み付けを決定する。具体的には、検索部25aは、ビデオ信号類似度データ12の音響による類似度と、動画像による類似度の各重みを決定するとともに、オーディオ信号類似度データ13のリズムによる類似度と、他楽器およびベースによる類似度の各重みを決定する。
 ここで、図48を参照して、本発明の変形例に係る検索部25aおよび表示部28aの処理を説明する。
 図48(a)を参照して、検索部25aによる処理を説明する。まず、記憶装置107からビデオ信号類似度データ12およびオーディオ信号類似度データ13が読み出される。さらに、シーン分割部21によって分割された各シーンについて、ビデオ信号類似度データ12から、ステップS601においてクエリ動画シーンとのビジュアル信号の類似度が取得されるとともに、ステップS602においてクエリ動画シーンとのオーディオ信号の類似度が取得される。さらに、シーン分割部21によって分割された各シーンについて、オーディオ信号類似度データ13から、ステップS603において、クエリ動画シーンとのベース音に基づく類似度が取得される。ステップS604においてクエリ動画シーンとの非ベース音に基づく類似度が取得される。ステップS605においてクエリ動画シーンとのリズムに基づく類似度が取得される。
 つぎに、ステップS606において、嗜好入力部A201における座標から、嗜好パラメータを取得し、ステップS607において、嗜好パラメータに基づいて、重み係数を算出する。つぎにステップS608において、ステップS601およびステップS605で取得された類似度のうち、所定値以上の類似度のシーンを検索する。ここでは、類似度に基づいて閾値処理する場合について説明するが、類似度が高いものから所定数のシーンが検索されても良い。
 図48(b)を参照して、表示部28aの処理を説明する。ステップS651において、ステップ検索部25aによって検索された各シーンについて、三次元空間における座標が算出される。ステップS652において、ステップS651で算出された各シーンの座標が透視変換され、各シーンの動画像のフレームの大きさが決定される。ステップS653において、表示装置に表示される。
 このように、本発明の変形例に係る検索部25aにおいては、類似シーン検索を行う際に、映像情報に注目したビデオ信号類似度算出部23において算出されたシーン間の類似度と、音楽情報に注目したオーディオ信号類似度算出部24において算出されたシーン間の類似度のうち、どの要素を重視して検索を行うかをユーザが指定することができる。
 ユーザが指定するのは図47に示されるような二次元の嗜好パラメータであり、この嗜好パラメータをもとに、それぞれの類似度に対する重み係数が決定される。そして重み係数を掛けた類似度の総和を最終的なシーン間の類似度とし、これに基づいて類似シーンの検索を行う。
 ここで、ユーザが指定する嗜好パラメータP,Pと最終的なシーン間の類似度Dの関係は以下の式で示される。
ただし、Dsv,Dsaは映像情報に注目した類似度算出部において算出されるシーン間の類似度である。Dsvはビジュアル信号に基づく類似度、Dsaはオーディオ信号に基づく類似度である。また、D,D,Dγは音楽情報に注目した類似度算出部において算出されるシーン間の類似度でありDはベース音に基づく類似度、Dは他楽器に基づく類似度、Dγはリズムに基づく類似度を示す。
 このような変形例に係る動画検索装置1によれば、複数のパラメータを複合して嗜好パラメータを生成し、その嗜好パラメータに合致するシーンを表示することができる。従って、ユーザに直感的に分かりやすい動画検索装置を提供することができる。
(効果)
 図49ないし図59を参照して、本発明の実施の形態に係る動画検索装置によるシミュレーション結果を説明する。このシミュレーションにおいては、動画データベース11に、クエリシーンを含む動画データと、このクエリシーンに類似するシーンを含む約10分間の動画データとを記憶している。本シミュレーションにおいては、このクエリシーンに類似するシーンを含む動画データを検索対象の動画データとし、この動画データに含まれる複数のシーンから、クエリシーンに類似するシーンを検索できるかをシミュレーションする。
 図49ないし図51は、分類部22および検索部25によるシミュレーション結果を示している。
 図49は、クエリシーンの動画データを示している。上段の画像は、動画データのビジュアル信号により構成された一定時間ごとのフレーム画像である。下段の画像は、動画データのオーディオ信号の波形である。
 図50は、実験対象の動画データの各シーンについて、クエリシーンとの類似度を示した図である。図50においては、横軸は、検索対象の動画データの開始位置からの時間で、縦軸は、クエリシーンとの類似度である。図50において類似度がプロットされている位置が、検索対象の動画データのシーンの開始位置である。図50において、類似度が約「1.0」になっているシーンが、クエリシーンと類似しているシーンである。実際に本シミュレーションにおいては、図49に示したシーンと同じシーンが、類似度が高いシーンとして検索された。
 図51に示す図は、3次元DTWによって得られる3つの座標を示したものである。図51に示したパス#5は、上述したとおり、ビジュアル信号とオーディオ信号との両方の信号を類似部分としてそれぞれ対応付けを行う役割を持つパスである。
 図50に示す結果により、高精度にシーン間の類似度が算出されていることを確認することができる。また、図51により、実施の形態で用いた3次元DTWにより、適切にシーン間の類似度の対応付けがなされていることを確認することができる。
 図52ないし図55は、ビデオ信号類似度算出部23およびビデオ信号類似度検索部26によるシミュレーション結果を示している。
 図52は、クエリシーンの動画データを示している。上段の画像は、動画データのビジュアル信号により構成された一定時間ごとのフレーム画像である。下段の画像は、動画データのオーディオ信号の波形である。一方、図53は、検索対象の動画データに含まれるシーンを示している。図52に示したクエリシーンのフレームF13ないしF17は、図53に示した検索対象のシーンのフレームF21ないしF25と類似している。図52に示したオーディオ信号と、図53に示したオーディオ信号は、明らかに異なる。
 図53は、実験対象の動画データの各シーンについて、クエリシーンとの類似度を示した図である。図53においては、横軸は、検索対象の動画データの開始位置からの時間で、縦軸は、クエリシーンとの類似度である。図53において類似度がプロットされている位置が、検索対象の動画データのシーンの開始位置である。図53において、類似度が約「0.8」になっているシーンが、クエリシーンと類似しているシーンである。実際に本シミュレーションにおいては、類似度が約「0.8」であるシーンは、図52に示したシーンである。このシーンが類似度が高いシーンとして検索された。
 図54に示す図は、3次元DTWによって得られる3つの座標を示したものである。図54に示したパス#1は、上述したとおり、クエリシーンのクリップの時間軸方向への伸縮を許容する役割を持つパスである。また、図54に示したパス#3は、ビジュアル信号を類似部分として対応付けを行う役割を持つ。
 図54に示す結果により、時間軸方向にずれたビジュアル信号についても、高精度にシーン間の類似度が算出されていることを確認することができる。また、図54により、実施の形態で用いた3次元DTWにより、適切にシーン間の類似度の対応付けがなされていることを確認することができる。
 図56ないし図59は、オーディオ信号類似度算出部24およびオーディオ信号類似度検索部27によるシミュレーション結果を示している。
 図56は、クエリシーンの動画データを示している。上段の画像は、動画データのビジュアル信号により構成された一定時間ごとのフレーム画像である。下段の画像は、動画データのオーディオ信号の波形である。一方、図57は、検索対象の動画データに含まれるシーンを示している。図56に示したクエリシーンのビジュアル信号により構成されたフレーム画像は、図57に示した検索対象シーンのビジュアル信号により構成されたフレーム画像とは明らかに異なる。一方、図56に示したクエリデータのオーディオ信号と、図57に示した検索対象シーンのオーディオ信号は類似している。
 図58は、実験対象の動画データの各シーンについて、クエリシーンとの類似度を示した図である。図58においては、横軸は、検索対象の動画データの開始位置からの時間で、縦軸は、クエリシーンとの類似度である。図58において類似度がプロットされている位置が、検索対象の動画データのシーンの開始位置である。図58において、類似度が約「0.8」になっているシーンが、クエリシーンと類似しているシーンである。実際に本シミュレーションにおいては、類似度が約「0.8」であるシーンは、図57に示したシーンである。このシーンが類似度が高いシーンとして検索された。
 図59に示す図は、3次元DTWによって得られる3つの座標を示したものである。図54に示したパス#4は、オーディオ信号を類似部分として対応付けを行う役割を持つ。
 図54に示す結果により、時間軸方向にずれたビジュアル信号についても、高精度にシーン間の類似度が算出されていることを確認することができる。また、図54により、実施の形態で用いた3次元DTWにより、適切にシーン間の類似度の対応付けがなされていることを確認することができる。
 このように、本発明の実施の形態に係る動画検索装置によれば、動画データのビデオ信号を用いて、ビデオ信号が類似する画像を高精度に検索することができる。これにより、毎週、毎日放送される番組などにおいて、繰り返し同じ動画像で始まる特定のコーナーを、ビデオ信号を用いて高精度に検索することができる。また、タイトルに日付が入っている場合や音響に変化があるなどの場合でも、全体として類似している限り、類似度の高い画像として検索することができる。また、異なる番組においても、動画像や音響が類似するシーンを容易に検索することができる。
 また、本発明の実施の形態に係る動画検索装置によれば、動画データのオーディオ信号を用いて、オーディオ信号が類似する画像を高精度に検索することができる。また、本発明の実施の形態においては、ベース音およびメロディの動きに基づいて、楽曲の類似度を算出しているので、曲のテンポの変化や変調にかかわらず、類似する楽曲を検索することができる。
(その他の実施の形態)
 上記のように、本発明の最良の実施の形態および変形例によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
 例えば、本発明の最良の実施の形態に記載した動画検索装置は、図1に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。
 また、本発明の最良の実施の形態においては、動画検索装置1が、分類部22、検索部25および表示部28を備え、分類部22が、ビデオ信号類似度算出部23およびオーディオ信号類似度算出部24を備える場合について説明している。ここで、本発明の最良の実施の形態においては、動画検索装置1が、ビデオ信号とオーディオ信号との両方に基づいて、類似度を算出、検索および表示する。具体的には、検索部25が、ビデオ信号類似度検索部26およびオーディオ信号類似度検索部27を備え、分類部22が、ビデオ信号類似度算出部23およびオーディオ信号類似度算出部24を備え、表示部28が、ビデオ信号類似度表示部29およびオーディオ信号類似度算出部30を備える。
 一方、ビデオ信号のみに基づいて類似度を算出、検索および表示する実施態様も考えられる。具体的には、分類部22はビデオ信号類似度算出部23を備え、検索部25はビデオ信号類似度検索部26を備え、表示部28はビデオ信号類似度算出部29を備える。
 同様に、オーディオ信号のみに基づいて類似度を算出、検索および表示する実施態様も考えられる。具体的には、分類部22はオーディオ信号類似度算出部24を備え、検索部25はオーディオ信号類似度検索部27を備え、表示部28はオーディオ信号類似度算出部30を備える。
 本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

Claims (22)

  1.  動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置であって、
     クエリ動画データを含む動画データが記憶された動画データベースと、
     前記動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、
     前記シーン分割部によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、
     前記ビデオ信号類似度データに基づいて、前記クエリ動画データの各シーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索部と、
     を備える動画検索装置。
  2.  前記ビデオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示部
     を更に備える請求項1に記載の動画検索装置。
  3.  前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、
     前記オーディオ信号類似度データに基づいて、前記クエリ動画データの各シーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索部と、
     を更に備える請求項1に記載の動画検索装置。
  4.  前記オーディオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示部
     を更に備える請求項3に記載の動画検索装置。
  5.  前記シーン分割部は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する
     請求項1に記載の動画検索装置。
  6.  前記ビデオ信号類似度算出部は、前記シーン分割部によって分割されたそれぞれのシーンについて、該シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、前記ビジュアル信号の特徴量を算出するとともに、前記クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、前記オーディオ信号の特徴量を算出し、前記クリップ単位の前記ビジュアル信号と前記オーディオ信号の特徴量に基づいて、前記シーン間の類似度を算出する
     請求項1に記載の動画検索装置。
  7.  前記オーディオ信号類似度算出部は、前記オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、前記オーディオ信号から前記ベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、前記エネルギーの差分の合計を算出して、前記ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いて前記オーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する
     請求項3に記載の動画検索装置。
  8.  動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索装置であって、
     クエリ動画データを含む動画データが記憶された動画データベースと、
     前記動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、
     前記シーン分割部によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、
     前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、
     ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得し、前記ビデオ信号類似度データおよび前記オーディオ信号類似度データに基づいて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から算出されたシーン間の類似度と、前記オーディオ信号のベース音に基づく類似度と、前記ベースを除く楽器に基づく類似度と、前記リズムに基づく類似度とに対する重み係数を決定して、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、前記シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する検索部と、
     前記検索部によって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する表示部
     を備える動画検索装置。
  9.  動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索プログラムであって、
     コンピュータを、
     動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、
     前記シーン分割手段によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、
     前記ビデオ信号類似度データに基づいて、前記クエリ動画データの各シーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するビデオ信号類似度検索手段
     として機能させる動画検索プログラム。
  10.  前記ビデオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するビデオ信号類似度表示手段
     として、更に前記コンピュータを機能させる請求項9に記載の動画検索プログラム。
  11.  前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、
     前記オーディオ信号類似度データに基づいて、前記クエリ動画データの各シーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索手段
     として、更に前記コンピュータを機能させる請求項9に記載の動画検索プログラム。
  12.  前記オーディオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示手段
     として、更に前記コンピュータを機能させる請求項11に記載の動画検索プログラム。
  13.  前記シーン分割手段は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する
     請求項9に記載の動画検索プログラム。
  14.  前記ビデオ信号類似度算出手段は、前記シーン分割手段によって分割されたそれぞれのシーンについて、該シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、前記ビジュアル信号の特徴量を算出するとともに、前記クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、前記オーディオ信号の特徴量を算出し、前記クリップ単位の前記ビジュアル信号と前記オーディオ信号の特徴量に基づいて、前記シーン間の類似度を算出する
     請求項9に記載の動画検索プログラム。
  15.  前記オーディオ信号類似度算出手段は、前記オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、前記オーディオ信号から前記ベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、前記エネルギーの差分の合計を算出して、前記ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いて前記オーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する
     請求項11に記載の動画検索プログラム。
  16.  動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索プログラムであって、
     コンピュータに、
     動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、
     前記シーン分割手段によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、
     前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、
     ビデオ信号類似度とオーディオ信号類似度に対する嗜好の割合である嗜好データを取得し、前記ビデオ信号類似度データおよび前記オーディオ信号類似度データに基づいて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から算出されたシーン間の類似度と、前記オーディオ信号のベース音に基づく類似度と、前記ベースを除く楽器に基づく類似度と、前記リズムに基づく類似度とに対する重み係数を決定して、各シーンの各類似度にこの重み係数を乗算して統合された類似度に基づいて、前記シーン間の統合された類似度が一定の閾値よりも小さいシーンを検索する検索手段と、
     前記検索手段によって検索された各シーンについて該統合された類似度に対応する座標を取得して表示する表示手段
     として機能させる動画検索プログラム。
  17.  動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索装置であって、
     クエリ動画データを含む動画データが記憶された動画データベースと、
     前記動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、
     前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、
     前記オーディオ信号類似度データに基づいて、前記クエリ動画データの各シーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索部と、
     を備える動画検索装置。
  18.  前記オーディオ信号類似度検索部によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示部
     を更に備える請求項17に記載の動画検索装置。
  19.  前記オーディオ信号類似度算出部は、前記オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、前記オーディオ信号から前記ベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、前記エネルギーの差分の合計を算出して、前記ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いて前記オーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する
     請求項17に記載の動画検索装置。
  20.  動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索プログラムであって、
     コンピュータを、
     動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、
     前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、
     前記オーディオ信号類似度データに基づいて、前記クエリ動画データの各シーンと、前記シーン間の類似度が一定の閾値よりも小さいシーンを検索するオーディオ信号類似度検索手段
     として機能させる動画検索プログラム。
  21.  前記オーディオ信号類似度検索手段によって検索された各シーンについて該類似度に対応する座標を取得して表示するオーディオ信号類似度表示手段
     として、更に前記コンピュータを機能させる請求項20に記載の動画検索プログラム。
  22.  前記オーディオ信号類似度算出手段は、前記オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出し、前記オーディオ信号から前記ベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、前記エネルギーの差分の合計を算出して、前記ベースを除く楽器に基づく類似度を算出し、2分割フィルタバンクを用いて前記オーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する
     請求項20に記載の動画検索プログラム。
PCT/JP2009/055315 2008-03-19 2009-03-18 動画検索装置および動画検索プログラム WO2009116582A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010503907A JP5339303B2 (ja) 2008-03-19 2009-03-18 動画検索装置および動画検索プログラム
EP09721452.2A EP2257057B1 (en) 2008-03-19 2009-03-18 Dynamic image search device and dynamic image search program
US12/673,465 US20110225196A1 (en) 2008-03-19 2009-03-18 Moving image search device and moving image search program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-072537 2008-03-19
JP2008072537 2008-03-19

Publications (1)

Publication Number Publication Date
WO2009116582A1 true WO2009116582A1 (ja) 2009-09-24

Family

ID=41090981

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/055315 WO2009116582A1 (ja) 2008-03-19 2009-03-18 動画検索装置および動画検索プログラム

Country Status (4)

Country Link
US (1) US20110225196A1 (ja)
EP (1) EP2257057B1 (ja)
JP (1) JP5339303B2 (ja)
WO (1) WO2009116582A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095510A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
US20120114310A1 (en) * 2010-11-05 2012-05-10 Research In Motion Limited Mixed Video Compilation

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542274B1 (ko) * 2007-10-16 2015-08-06 힐크레스트 래보래토리스, 인크. 씬 클라이언트 상에서 동작하는 사용자 인터페이스의 빠르고 부드러운 스크롤링
US9316578B2 (en) 2008-10-30 2016-04-19 New York University Automated real-time particle characterization and three-dimensional velocimetry with holographic video microscopy
JP5337241B2 (ja) * 2009-06-05 2013-11-06 株式会社東芝 映像編集装置
CN102682091A (zh) * 2012-04-25 2012-09-19 腾讯科技(深圳)有限公司 基于云服务的视觉搜索方法和系统
CN102890700B (zh) * 2012-07-04 2015-05-13 北京航空航天大学 一种基于体育比赛视频的相似视频片段检索方法
US20140173662A1 (en) 2012-12-14 2014-06-19 International Business Machines Corporation Multi-dimensional channel directories
WO2016077472A1 (en) 2014-11-12 2016-05-19 New York University Colloidal fingerprints for soft materials using total holographic characterization
US10984248B2 (en) * 2014-12-15 2021-04-20 Sony Corporation Setting of input images based on input music
US11385157B2 (en) 2016-02-08 2022-07-12 New York University Holographic characterization of protein aggregates
US10482126B2 (en) * 2016-11-30 2019-11-19 Google Llc Determination of similarity between videos using shot duration correlation
CN110427996B (zh) * 2019-07-24 2022-03-15 清华大学 基于模糊匹配的时间序列异常模式识别方法及装置
KR102618732B1 (ko) * 2019-08-27 2023-12-27 엘지전자 주식회사 얼굴 인식 활용 단말기 및 얼굴 인식 활용 방법
CN110619284B (zh) * 2019-08-28 2023-09-05 腾讯科技(深圳)有限公司 一种视频场景划分方法、装置、设备及介质
US11543338B2 (en) 2019-10-25 2023-01-03 New York University Holographic characterization of irregular particles
CN111883169B (zh) * 2019-12-12 2021-11-23 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
US11948302B2 (en) 2020-03-09 2024-04-02 New York University Automated holographic video microscopy assay
CN112770116B (zh) * 2020-12-31 2021-12-07 西安邮电大学 用视频压缩编码信息提取视频关键帧的方法
CN112883233B (zh) * 2021-01-26 2024-02-09 济源职业技术学院 一种5g音视频记录仪
CN113539298B (zh) * 2021-07-19 2023-11-14 中通服咨询设计研究院有限公司 一种基于云边端的声音大数据分析计算图像化系统
CN114782866B (zh) * 2022-04-20 2024-03-08 山东省计算中心(国家超级计算济南中心) 地理标记视频的相似度确定方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004159331A (ja) * 2002-11-01 2004-06-03 Microsoft Corp ビデオを自動的に編集するためのシステムおよび方法
JP2005252859A (ja) * 2004-03-05 2005-09-15 Kddi Corp 動画像データのシーン分割装置
JP2006014084A (ja) * 2004-06-28 2006-01-12 Hiroshima Univ 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JP2007058258A (ja) 2005-08-22 2007-03-08 Hitachi Systems & Services Ltd 画像検索方法
JP2007274233A (ja) 2006-03-30 2007-10-18 Toshiba Corp 映像情報処理装置およびデジタル情報記録媒体、映像情報処理方法、映像情報処理プログラム
JP2008005167A (ja) * 2006-06-21 2008-01-10 Hokkaido Univ 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966078B2 (en) * 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US7356830B1 (en) * 1999-07-09 2008-04-08 Koninklijke Philips Electronics N.V. Method and apparatus for linking a video segment to another segment or information source
KR100451649B1 (ko) * 2001-03-26 2004-10-08 엘지전자 주식회사 이미지 검색방법과 장치
DE60204039T2 (de) * 2001-11-02 2006-03-02 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur kodierung und dekodierung von audiosignalen
US7606790B2 (en) * 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
US20070133947A1 (en) * 2005-10-28 2007-06-14 William Armitage Systems and methods for image search
US8022864B2 (en) * 2007-11-08 2011-09-20 The United States Of America As Represented By The Secretary Of Commerce Detection of transient signals in doppler spectra
KR101622360B1 (ko) * 2008-06-06 2016-05-19 톰슨 라이센싱 이미지들의 유사성 검색을 위한 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004159331A (ja) * 2002-11-01 2004-06-03 Microsoft Corp ビデオを自動的に編集するためのシステムおよび方法
JP2005252859A (ja) * 2004-03-05 2005-09-15 Kddi Corp 動画像データのシーン分割装置
JP2006014084A (ja) * 2004-06-28 2006-01-12 Hiroshima Univ 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JP2007058258A (ja) 2005-08-22 2007-03-08 Hitachi Systems & Services Ltd 画像検索方法
JP2007274233A (ja) 2006-03-30 2007-10-18 Toshiba Corp 映像情報処理装置およびデジタル情報記録媒体、映像情報処理方法、映像情報処理プログラム
JP2008005167A (ja) * 2006-06-21 2008-01-10 Hokkaido Univ 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. LU; D. LIU; H. J. ZHANG: "Automatic Mood Detection and Tracking of Music Audio Signals", IEEE TRANS. AUDIO, SPEECH AND LANGUAGE PROCEEDING, vol. 14, no. 1, 2006, pages 5 - 8
T. LI; M. OGIHARA: "Toward Intelligent Music Information Retrieval", IEEE TRANS. MULTIMEDIA, vol. 8, no. 3, 2006, pages 564 - 574

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095510A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
US20120114310A1 (en) * 2010-11-05 2012-05-10 Research In Motion Limited Mixed Video Compilation

Also Published As

Publication number Publication date
EP2257057B1 (en) 2019-05-08
EP2257057A4 (en) 2012-08-29
JPWO2009116582A1 (ja) 2011-07-21
JP5339303B2 (ja) 2013-11-13
EP2257057A1 (en) 2010-12-01
US20110225196A1 (en) 2011-09-15

Similar Documents

Publication Publication Date Title
JP5339303B2 (ja) 動画検索装置および動画検索プログラム
Tzanetakis et al. Marsyas: A framework for audio analysis
Pampalk et al. On the evaluation of perceptual similarity measures for music
Choi et al. Explaining deep convolutional neural networks on music classification
Peeters et al. Sound indexing using morphological description
Brent A timbre analysis and classification toolkit for pure data
Sheng et al. A feature learning siamese model for intelligent control of the dynamic range compressor
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
Six et al. Tarsos: a platform to explore pitch scales in non-western and western music
WO2010041744A1 (ja) 動画検索装置および動画検索プログラム
Rajan et al. Music genre classification by fusion of modified group delay and melodic features
Giannakopoulos Study and application of acoustic information for the detection of harmful content and fusion with visual information
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Loiseau et al. A model you can hear: Audio identification with playable prototypes
CN112687280B (zh) 一种具有频谱-时间空间界面的生物多样性监测系统
Pampalk et al. Computational models of similarity for drum samples
CN115512104A (zh) 一种数据处理方法及相关设备
Korvel et al. Discovering rule-based learning systems for the purpose of music analysis
Dupont et al. Audiocycle: Browsing musical loop libraries
Sunouchi et al. Diversity-Robust Acoustic Feature Signatures Based on Multiscale Fractal Dimension for Similarity Search of Environmental Sounds
Yanchenko et al. A Methodology for Exploring Deep Convolutional Features in Relation to Hand-Crafted Features with an Application to Music Audio Modeling
Monteiro et al. A framework for real-time instrumental sound segmentation and labeling
Bhagwat et al. Enhanced audio source separation and musical component analysis
Shelke et al. An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement
Borole et al. Beyond Image Synthesis: GAN and Audio

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09721452

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2009721452

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12673465

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010503907

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE