WO2010041744A1 - 動画検索装置および動画検索プログラム - Google Patents

動画検索装置および動画検索プログラム Download PDF

Info

Publication number
WO2010041744A1
WO2010041744A1 PCT/JP2009/067652 JP2009067652W WO2010041744A1 WO 2010041744 A1 WO2010041744 A1 WO 2010041744A1 JP 2009067652 W JP2009067652 W JP 2009067652W WO 2010041744 A1 WO2010041744 A1 WO 2010041744A1
Authority
WO
WIPO (PCT)
Prior art keywords
similarity
scene
signal
audio signal
data
Prior art date
Application number
PCT/JP2009/067652
Other languages
English (en)
French (fr)
Inventor
美紀 長谷山
Original Assignee
国立大学法人 北海道大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 北海道大学 filed Critical 国立大学法人 北海道大学
Publication of WO2010041744A1 publication Critical patent/WO2010041744A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Definitions

  • the present invention relates to a moving image search apparatus and a moving image search program for searching a scene similar to query moving image data from a plurality of moving image data.
  • Non-Patent Document 1 there is a method in which words based on sensibility are added to video / music as metadata and the similarity between video / music is calculated based on the relationship between words (see Non-Patent Document 1 and Non-Patent Document 2).
  • Patent Document 3 there is a method of searching for semantically similar multimedia data for multimedia data including video data and audio data (see Patent Document 3).
  • text data such as subtitles and scripts associated with multimedia data, text data obtained by converting audio data, and the like are divided into topic units, and text data input as a search condition and The text data divided into topic units is compared to determine the semantic similarity between them.
  • Patent Document 1 and Patent Document 2 described above are classification methods based only on image features. Therefore, even for a scene including a similar image, it is difficult to obtain a similar scene by grasping the sensitivity of the image.
  • Non-Patent Document 1 and Non-Patent Document 2 it is possible to search for similar scenes by grasping the sensibility of an image, but metadata must be assigned to each scene in advance. Therefore, it is difficult to cope with the case where a large amount of moving image data has to be classified with the recent increase in capacity of the database.
  • an object of the present invention is to provide a moving image search apparatus and a moving image search program for searching for a scene similar to a query scene of moving image data.
  • a first feature of the present invention relates to a moving image search apparatus that searches a scene similar to query moving image data from a moving image data scene. That is, the moving image search apparatus according to the first aspect of the present invention divides a moving image database including moving image data including query moving image data and a visual signal of the moving image data into shots, and outputs audio signals corresponding to the shots.
  • a scene segmentation unit that outputs continuous shots with a small difference in feature amount as a scene, and for each scene segmented by the scene segmentation unit, the audio signal of the audio signal is converted into text data, and the noun in the text data Is provided with a text similarity calculation unit that calculates text similarity between scenes based on the above frequency and generates text similarity data.
  • the text similarity calculation unit calculates a mel frequency cepstrum coefficient of the audio signal for each scene divided by the scene division unit, performs speech recognition processing on the calculated mel frequency cepstrum coefficient, and converts it into text data. It is also possible to convert the text data to extract nouns by morphological analysis, and based on the extracted noun frequencies, output detected words that are characteristic of the scene to calculate the text similarity.
  • Video signal similarity that generates video signal similarity data by calculating the video signal similarity between scenes from the visual signal feature and audio signal feature for each scene divided by the scene divider You may further provide a calculation part. For each scene divided by the scene division unit, the similarity of audio signals between scenes including the similarity based on the base sound of the audio signal, the similarity based on the instrument excluding the base, and the similarity based on the rhythm An audio signal similarity calculating unit that calculates and generates audio signal similarity data may be further included.
  • the video signal similarity calculation unit that calculates the video signal similarity between the scenes and generates the video signal similarity data
  • the scene division unit For each scene, the audio signal similarity calculation unit that calculates the audio signal similarity between scenes and generates audio signal similarity data, and the video signal of each scene searched by the video signal similarity calculation unit Obtain at least one of the similarity, the audio signal similarity of each scene searched by the audio signal similarity calculation unit, and the text similarity of each scene searched by the text similarity calculation unit, Calculated by the similarity calculator that calculates the similarity to the query video data and the similarity calculator
  • a scene search unit that searches for a scene with a high similarity with reference to the similarity to the video data, and coordinates corresponding to the similarity acquired by the similarity calculation unit for each scene searched by the scene search unit May be further provided with a display unit for calculating and displaying on the display device.
  • the scene division unit calculates the feature value data of each clip from the audio signal of the moving image data, calculates the probability of belonging to each audio class representing the type of sound of each clip, and the visual signal of the moving image data Is divided into shots, the fuzzy inference value of each shot is calculated from the probability of belonging to each audio class of a plurality of clips corresponding to the shot, and continuous shots with small differences in fuzzy inference values between adjacent shots Is output as a scene.
  • the second feature of the present invention relates to a moving image search program for searching a scene similar to query moving image data from a moving image data scene. That is, the moving image search program according to the third feature of the present invention divides a query moving image data and a visual signal of moving image data stored in a moving image database into shots, and features of audio signals corresponding to the shots. Frequency dividing noun in the text data by converting the voice signal of the audio signal into text data for each scene divided by the scene dividing means for outputting a continuous shot with a small difference as a scene From this, the similarity between the texts between the scenes is calculated to function as text similarity calculation means for generating text similarity data.
  • the text similarity calculating means calculates a mel frequency cepstrum coefficient of the audio signal for each scene divided by the scene dividing means, performs speech recognition processing on the calculated mel frequency cepstrum coefficient, and converts it into text data. It is also possible to convert the text data to extract nouns by morphological analysis, and based on the extracted noun frequencies, output detected words that are characteristic of the scene to calculate the text similarity.
  • the video signal similarity is calculated by calculating the video signal similarity between scenes from the visual signal feature quantity and the audio signal feature quantity. You may make it function further as a calculation means. For each scene divided by the scene dividing means, the similarity of the audio signal between scenes including the similarity based on the base sound of the audio signal, the similarity based on the instrument excluding the base, and the similarity based on the rhythm You may make it function further as an audio signal similarity calculation means which calculates and produces
  • the video signal similarity calculating means for calculating the video signal similarity between the scenes and generating the video signal similarity data, and each of the scene divided by the scene dividing means Audio signal similarity calculation means for calculating audio signal similarity between scenes and generating audio signal similarity data for the scene, and similarity of video signals of each scene searched by the video signal similarity calculation means , Acquiring at least one of the audio signal similarity of each scene searched by the audio signal similarity calculating means and the text similarity of each scene searched by the text similarity calculating means, and for each scene, Similarity calculation means for calculating similarity with query video data, and similarity calculation means With reference to the calculated similarity to the query video data, a scene search means for searching for a scene with a high similarity, and the similarity obtained by the similarity calculation means for each scene searched by the scene search means You may make it function further as a display means which calculates a corresponding coordinate and displays it on a display apparatus.
  • the scene dividing means calculates the feature value data of each clip from the audio signal of the moving image data, calculates the probability of belonging to each audio class representing the type of sound of each clip, and the visual signal of the moving image data Is divided into shots, the fuzzy inference value of each shot is calculated from the probability of belonging to each audio class of a plurality of clips corresponding to the shot, and continuous shots with small differences in fuzzy inference values between adjacent shots May be output as a scene.
  • the present invention it is possible to provide a moving image search device and a moving image search program for searching for a scene similar to a query scene of moving image data.
  • FIG. 1 is a functional block diagram of a moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 2 is an example of a screen that is output by the moving image search device according to the preferred embodiment of the present invention and displays a query image.
  • FIG. 3 is an example of a screen that is output by the moving image search device according to the preferred embodiment of the present invention and displays a similar image.
  • FIG. 4 is an example of a screen output by the moving image search apparatus according to the preferred embodiment of the present invention, in which detailed information of similar images is displayed.
  • FIG. 5 is a hardware configuration diagram of the video search apparatus according to the preferred embodiment of the present invention.
  • FIG. 6 is a diagram for explaining a moving image search process by the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 1 is a functional block diagram of a moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 2 is an example of a screen that is output by the moving image search device according to the preferred embodiment of the
  • FIG. 7 is a flowchart for explaining scene division processing by the scene division unit according to the preferred embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining video signal similarity calculation processing by the video signal similarity calculation unit according to the preferred embodiment of the present invention.
  • FIG. 9 is a flowchart for explaining audio signal similarity calculation processing by the audio signal similarity calculation unit according to the preferred embodiment of the present invention.
  • FIG. 10 is a flowchart for explaining similarity calculation processing based on the bass sound according to the preferred embodiment of the present invention.
  • FIG. 11 is a flowchart for explaining similarity calculation processing based on other instruments other than the bass sound according to the preferred embodiment of the present invention.
  • FIG. 12 is a flowchart illustrating similarity calculation processing based on rhythm according to the preferred embodiment of the present invention.
  • FIG. 13 is a flowchart for explaining text similarity calculation processing by the text similarity calculation unit according to the preferred embodiment of the present invention.
  • FIG. 14 is a flowchart for explaining search processing according to the preferred embodiment of the present invention.
  • FIG. 15 is a flowchart for explaining display processing according to the preferred embodiment of the present invention.
  • FIG. 16 is a diagram for explaining audio clip class classification in the video search apparatus according to the preferred embodiment of the present invention.
  • FIG. 17 is a table for explaining signals that are referred to when classifying audio clips in the moving picture search apparatus according to the preferred embodiment of the present invention.
  • FIG. 18 is a diagram for explaining processing for calculating the feature amount of an audio clip in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 19 is a diagram for explaining the process of outputting the main component of the feature amount of the audio clip in the moving picture search device according to the preferred embodiment of the present invention.
  • FIG. 20 is a diagram for explaining in detail the audio clip class classification in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 21 is a diagram for explaining video shot division processing by the ⁇ 2 test method in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 22 is a diagram for explaining processing for generating a fuzzy set in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 23 is a diagram for explaining fuzzy control rules in the moving image search apparatus according to the preferred embodiment of the present invention. (Part 1) FIG.
  • FIG. 24 is a diagram for explaining fuzzy control rules in the moving image search apparatus according to the preferred embodiment of the present invention.
  • Part 2 FIG. 25 illustrates the calculation process of the probability of belonging to the audio class for each shot, the fuzzy inference process for each shot, and the scene division process using the fuzzy inference value in the video search apparatus according to the preferred embodiment of the present invention. It is a figure to do.
  • FIG. 26 is a flowchart for explaining visual signal feature amount calculation processing in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 27 is a flowchart for explaining audio signal feature amount calculation processing in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 28 is a diagram for explaining the lattice points of the three-dimensional DTW in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 29 is a diagram for explaining a local path in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 30 is a flowchart for explaining the similarity calculation process between scenes in the moving picture search apparatus according to the preferred embodiment of the present invention.
  • FIG. 31 is a diagram for explaining calculation of similarity between patterns by a general DTW.
  • FIG. 32 is a diagram for explaining calculation of a path length by a general DTW.
  • FIG. 33 is a diagram for explaining similarity calculation based on the base sound in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 34 is a flowchart for explaining similarity calculation processing based on the base sound in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 35 is a table for explaining the frequency of each pitch name.
  • FIG. 36 is a diagram for explaining a pitch estimation process in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 37 is a diagram for explaining similarity calculation based on musical instruments other than the base sound in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 38 is a flowchart for explaining similarity calculation processing based on another musical instrument in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 35 is a table for explaining the frequency of each pitch name.
  • FIG. 36 is a diagram for explaining a pitch estimation process in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 37 is a diagram for explaining similarity calculation based on musical instruments other than the base sound in the moving image search device according to the preferred embodiment of the present
  • FIG. 39 is a diagram illustrating low-frequency / high-frequency component calculation processing by the two-divided filter bank in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 40 is a diagram for explaining the low-frequency / high-frequency components calculated by the two-divided filter bank in the video search device according to the preferred embodiment of the present invention.
  • FIG. 41 is a diagram illustrating a signal before full-wave rectification and a signal after full-wave rectification in the moving picture search device according to the best embodiment of the present invention.
  • FIG. 42 is a diagram for explaining a signal processed by the low-pass filter in the moving image search device according to the preferred embodiment of the present invention.
  • FIG. 43 is a diagram for explaining downsampling in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 44 is a diagram for explaining average value removal processing in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 45 is a diagram for explaining the autocorrelation of the Sin waveform.
  • FIG. 46 is a flowchart illustrating autocorrelation function calculation processing and rhythm function similarity calculation processing using DTW in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 47 is a diagram for explaining the basic principle of continuous speech recognition in the moving picture search apparatus according to the preferred embodiment of the present invention.
  • FIG. 48 is a diagram for explaining perspective transformation in the moving image search apparatus according to the preferred embodiment of the present invention.
  • FIG. 49 is a diagram for explaining an interface of the preference input unit of the video search device according to the embodiment of the present invention.
  • FIG. 50 is a diagram for explaining an example of a screen on which the search result is displayed using the city distance in the search unit of the video search device according to the embodiment of the present invention.
  • FIG. 51 is a diagram for explaining an example of a screen on which a search result is displayed using the Euclidean distance in the search unit of the video search device according to the embodiment of the present invention.
  • FIG. 52 is a diagram illustrating an example of a screen on which a search result is displayed using a chess board distance in the search unit of the video search device according to the embodiment of the present invention.
  • FIG. 53 is a diagram for explaining coordinates for displaying each moving image data in the display unit of the moving image search apparatus according to the embodiment of the present invention.
  • FIG. 54 is a diagram for explaining query image data input to the moving image search device in the similar image search simulation according to the embodiment of the present invention.
  • FIG. 55 is a diagram for explaining moving image data similar to query image data in the similar image search simulation according to the embodiment of the present invention.
  • FIG. 56 is a diagram for explaining moving image data similar to query image data in a similar image search simulation according to the embodiment of the present invention.
  • FIG. 57 is a diagram for explaining moving image data similar to query image data in the similar image search simulation according to the embodiment of the present invention.
  • FIG. 58 is a diagram for explaining moving image data similar to query image data in the similar image search simulation according to the embodiment of the present invention.
  • Part 4 is a diagram for explaining coordinates for displaying each moving image data in the display unit of the moving image search apparatus according to the embodiment of the present invention.
  • a “shot” is a continuous image frame sequence from camera switching to the next camera switching.
  • CG animation and composite video are also used in the same meaning by replacing the camera with the setting of the shooting environment.
  • the discontinuous points between shots are called “cut points”.
  • a “scene” is a collection of meaningful consecutive shots.
  • a “clip” is a signal obtained by dividing a video signal by a predetermined clip length. The clip preferably includes a plurality of frames.
  • a “frame” is still image data constituting moving image data.
  • the moving picture search apparatus 1 searches a scene similar to query moving picture data from scenes of moving picture data.
  • the moving image search apparatus 1 according to the preferred embodiment of the present invention classifies moving image data existing in the moving image database 11 into scenes, and calculates the similarity between the scenes.
  • the video search device 1 when any scene is selected as the query video data, the video search device 1 according to the best embodiment of the present invention is similar to the query video data based on the similarity between the query video data and the other scenes. Search for the scene you want to play.
  • the similarity between videos is calculated using the analysis results of the audio and visual signals that are the components of the video without using metadata, and the similar video is obtained. Describes a system for searching or classifying A system for visualizing those search or classification results on a three-dimensional space will be described.
  • calculation of the similarity of video information based on a video signal including an audio signal and a visual signal calculation of the similarity of music information based on the audio signal, and audio It has three similarity calculation functions: calculation of the similarity of text converted from a speech signal included in the signal. Further, by using this function, it is possible to automatically search for similar videos when a query video is given.
  • the video in the database is automatically classified, and a video similar to the video of interest can be presented to the user.
  • the best mode of the present invention it is possible to understand the similarity of images according to the distance of the space by arranging the images in a three-dimensional space based on the similarity between the images. A user interface is realized.
  • the moving picture search apparatus 1 reads a plurality of videos from the moving picture database 11, and the scene dividing unit 21 is a section including the same contents for all the videos. A scene is calculated. Further, the classification unit 22 calculates the similarity between all the obtained scenes, and the search unit 26 extracts moving image data having a high similarity with the query image. The display unit 29 arranges the images in the three-dimensional space so that the images having similar scenes are close to each other. When a query video is given, processing is performed mainly on the video.
  • the processing of the classification unit 22 of the moving image search device 1 includes (1) a video signal similarity calculation unit 23 based on “search / classification focusing on video information”, and (2 The audio signal similarity calculation unit 24 based on “search / classification focusing on music information” and the text similarity calculation unit 25 based on (3) “search / classification focusing on text” are branched.
  • the similarity is calculated using a different algorithm in each process.
  • the moving image search apparatus 1 displays the display screens P101 to P103 shown in FIGS. 2 to 4 on the display device. 2 to 4 show display screens in the case of searching for a scene whose text data is similar to the query scene.
  • the display screen P101 illustrated in FIG. 2 includes a query image display unit A101.
  • the moving image search device 1 searches the moving image database 11 for a scene similar to the moving image displayed on the query image display unit A101, and displays the display screen P102 on the display device.
  • the display screen P102 shown in FIG. 3 includes similar scene display portions A102a and A102b. In these similar scene display portions A102a and A102b, scenes of moving image data retrieved from the moving image database 11 and similar to the scenes displayed in the query display portion A101 are displayed.
  • the display screen P102 shown in FIG. 3 includes a preference input unit A201 for inputting an index when searching for a scene of moving image data similar to the query scene.
  • the preference input unit A201 has an inverted triangular shape, and a moving image similarity, a sound similarity, and a text similarity are associated with each vertex.
  • the user selects one of the insides of the inverted triangle of the preference input unit A201, and the similarity of each of the similarity of moving images, the similarity of sound, and the similarity of text according to the selected position. Can be determined.
  • a scene of moving image data similar to the query moving image data is arranged on a three-dimensional space based on the similarity between the images, and the similarity of the images is determined according to the distance of the space.
  • the axes arranged in the three-dimensional space are the similarity based on the video signal (similarity of moving images), the similarity based on the audio signal (similarity of sound), and the similarity based on the text (text similarity). Degree).
  • the display screen P103 of FIG. 4 includes a detected word display unit A104 that displays a detected word output by the text similarity calculation unit 25 described later in association with the similar scene.
  • This detected word is a noun that characterizes this scene.
  • the detected word may be a plurality of nouns or a single noun.
  • the moving image search apparatus 1 includes a central processing control device 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, and an input / output interface 109.
  • a central processing control device 101 a central processing control device 101
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input device 104, a display device 105, a communication control device 106, a storage device 107, and a removable disk 108 are connected to the input / output interface 109.
  • the central processing control device 101 reads out and executes a boot program for starting up the moving image search device 1 from the ROM 102 based on an input signal from the input device 104, and further reads out an operating system stored in the storage device 107. Further, the central processing control device 101 controls various devices based on input signals from the input device 104, the communication control device 106, etc., and reads programs and data stored in the RAM 103, the storage device 107, etc. into the RAM 103. A processing device that loads and implements a series of processes to be described later, such as data calculation or processing, based on a program command read from the RAM 103.
  • the input device 104 includes input devices such as a keyboard and a mouse through which an operator inputs various operations.
  • the input device 104 generates an input signal based on the operation of the operator, and inputs via the input / output interface 109 and the bus 110. It is transmitted to the central processing control apparatus 101.
  • the display device 105 is a CRT (Cathode Ray Tube) display, a liquid crystal display, or the like, and receives an output signal to be displayed on the display device 105 from the central processing control device 101 via the bus 110 and the input / output interface 109. It is a device that displays the processing result of the control device 101 and the like.
  • the communication control device 106 is a device such as a LAN card or a modem, and is a device that connects the moving image search device 1 to a communication network such as the Internet or a LAN. Data transmitted / received to / from the communication network via the communication control device 106 is transmitted / received to / from the central processing control device 101 via the input / output interface 109 and the bus 110 as an input signal or an output signal.
  • the storage device 107 is a semiconductor storage device or a magnetic disk device, and stores programs and data executed by the central processing control device 101.
  • the removable disk 108 is an optical disk or a flexible disk, and signals read / written by the disk drive are transmitted / received to / from the central processing control apparatus 101 via the input / output interface 109 and the bus 110.
  • the storage device 107 of the moving image search apparatus 1 stores a moving image search program and, as shown in FIG. 1, a moving image database 11, video signal similarity data 12, audio signals. Similarity data 13 and text similarity data 14 are stored. Further, the moving image search program is read and executed by the central processing control device 101 of the moving image search device 1, whereby the scene dividing unit 21, the classification unit 22, the search unit 26, and the display unit 29 are mounted on the moving image search device 1.
  • step S1 the scene dividing unit 21 divides each moving image data into each scene.
  • the scene dividing unit 21 records the head time of each divided scene.
  • step S2 to step S4 the classification unit 23 calculates the similarity between scenes for each scene of each moving image data.
  • step S ⁇ b> 2 the classification unit 23 calculates the similarity of the video signal between the scenes from the feature amount of the video signal of each scene.
  • step S3 the classification unit 23 calculates the similarity of the audio signal between the scenes from the feature amount of the audio signal of each scene.
  • step S4 the classification unit 23 calculates the text similarity between the scenes from the text feature amount of each scene.
  • the search unit 26 determines a calculation formula for calculating the similarity D in step S5.
  • the similarity D is the similarity between the query moving image data and each scene.
  • the degree of similarity D is calculated based on the degree of similarity calculated in steps S2 to S4 and specified conditions. Further, the search unit 26 calculates the similarity D according to the calculation formula for each scene.
  • the designated condition is a search condition input by the user when searching for similar moving image data.
  • the search condition is a search for similarity based on any parameter of query moving image data, video signal, audio signal, and text specified from moving image data in the moving image database 11, video signal, audio signal
  • the weight for each specified parameter is used.
  • the similarity D is calculated from the video signal similarity, the audio signal similarity, and the text similarity between the query moving image data designated by the user and a scene of other moving image data.
  • the weight designated by the user is also taken into consideration. For example, when only the text is designated by the user, the similarity D is the same as the text similarity. At this time, the similarity weight between the video signal and the audio signal is evaluated as zero, and the similarity D is not affected. Further, when the audio signal weight 8 and the text weight 2 are input, the similarity D is evaluated from the audio signal similarity and the text similarity in consideration of the respective weights. At this time, the similarity weight of the video signal is evaluated as zero, and the similarity D is not affected. When the weight of each of the video signal, the audio signal, and the text is input as 3, the similarity D is evaluated equally for the video signal, the audio signal, and the text.
  • the search unit 26 calculates the similarity D for each scene of each moving image data. Specifically, the search unit extracts the video signal similarity, the audio signal similarity, and the text similarity with the query video data for each scene of each video data, and calculates the similarity D from the calculation formula. .
  • step S6 the search unit 26 refers to the similarity D of each scene of each moving image data calculated in step S5, and extracts a scene having a high similarity D with the query moving image data.
  • the number of scenes extracted in step S6 may be arbitrarily determined depending on the size of the display screen to be displayed, resolution, ease of viewing, and the like. Further, a scene whose similarity is within a predetermined threshold may be extracted regardless of the number of scenes.
  • step S7 the display unit 29 displays the thumbnail of the scene extracted in step S6 on the display screen.
  • the display unit 29 calculates coordinates corresponding to the similarities calculated in steps S2 to S4 for each scene extracted in step S7.
  • the display unit 29 calculates, for example, three-dimensional coordinates corresponding to the similarity of the video signal, the similarity of the audio signal, and the similarity of the text between the scenes, converts the coordinates into two dimensions by perspective transformation, and displays the display screen. Calculate the coordinates at.
  • the similarity between scenes is searched in advance, and the user selects query moving image data from each scene of each moving image data.
  • the moving image database 11 includes 10 moving image data scenes, the first scene and the second scene, the first scene and the third scene, the first scene and the fourth scene,. ..Similarity of video signal and audio signal between 45 scenes of 8th scene and 9th scene, 8th scene and 10th scene, 9th scene and 10th scene.
  • the similarity and text similarity are calculated.
  • the query video data is determined first, and the video signal similarity, the audio signal similarity, and the text of the query video data and the scenes of each of the other video data scenes are determined.
  • the degree of similarity may be calculated.
  • the moving image database 11 stores a plurality of moving image data.
  • the moving image data stored in the moving image database 11 is an object to be classified by the moving image search device 1 according to the best embodiment of the present invention.
  • the moving image data stored in the moving image database 11 is composed of video signals including audio signals and visual signals.
  • the scene dividing unit 21 reads the moving image database 11 from the storage device 107, divides the visual signal of the moving image data into shots, and outputs continuous shots having a small difference in the feature amount of the audio signal corresponding to the shot as a scene. . More specifically, the scene dividing unit 21 calculates feature amount data of each clip from the audio signal of the moving image data, and calculates the belonging probability to each audio class representing the type of sound of each clip. Further, the scene dividing unit 21 divides the visual signal of the moving image data into shots, and calculates a fuzzy inference value for each shot from the probability of belonging to each audio class of a plurality of clips corresponding to the shot. Further, the scene dividing unit 21 outputs consecutive shots with a small difference in fuzzy inference values between adjacent shots as a scene.
  • step S101 the scene dividing unit 21 extracts and reads out an audio signal from one of the moving image data stored in the moving image database 11, and in step S102, the scene dividing unit 21 divides the audio signal into clips.
  • step S103 to step S105 the processing from step S103 to step S105 is repeated for each clip divided in step S102.
  • step S103 the feature amount of the clip is calculated, and in step S104, the parameter of the feature amount is reduced by PCA (principal component analysis).
  • PCA principal component analysis
  • the audio class attribution probability of the clip is calculated based on the MGD based on the feature amount after being reduced in step S104.
  • the audio class is a class that represents the type of audio signal such as silence, voice, or music.
  • step S103 to step S105 when the audio class belonging probability is calculated for each clip of the audio signal, in step S106, the scene dividing unit 21 extracts a visual signal corresponding to the audio signal acquired in step S101.
  • step S107 the video data is divided into shots based on the chi-square test method. In this chi-square test method, a color histogram of a visual signal is used instead of an audio signal.
  • step S107 when the moving image data is divided into a plurality of shots, the processing in step S108 and step S109 is repeated for each shot.
  • step S108 the probability of belonging to the audio class for each shot is calculated.
  • the attribution probability to the audio class calculated in step S105 is acquired.
  • the average value of the probability of belonging to the audio class of each clip is calculated as the probability of belonging to the audio class for the shot.
  • the output variables and membership function values of each shot class are calculated by fuzzy inference for each shot.
  • step S110 the scene division unit 21 is based on the output variable of each shot class and the value of the membership function by fuzzy inference. Then, the shots are connected to divide the moving image data into scenes.
  • the classification unit 22 includes a video signal similarity calculation unit 23, an audio signal similarity calculation unit 24, and a text similarity calculation unit 25.
  • the classification unit 22 calculates the feature amount of the video signal, the feature amount of the audio signal, and the feature amount of the text for each scene of each moving image data stored in the moving image database 11.
  • the video signal similarity calculation unit 23 calculates the video signal similarity between scenes and generates video signal similarity data 12.
  • the audio signal similarity calculation unit 23 calculates the audio signal similarity between scenes, and generates audio signal similarity data 13.
  • the text similarity calculation unit 25 calculates the text similarity for each scene, and generates the text similarity data 14.
  • the video signal similarity calculating unit 23 calculates the video signal similarity between scenes from the visual signal feature amount and the audio signal feature amount, Similarity data 12 is generated.
  • the similarity between scenes is the similarity of visual signals between a certain scene and another scene. For example, if n scenes are stored in the moving image database 11, the visual signal similarity with the second scene, the visual signal similarity with the third scene for the first scene,... The similarity of the visual signal with the nth scene is calculated. More specifically, the video signal similarity calculating unit 23 divides the scene into clips for each scene divided by the scene dividing unit 21, and uses a predetermined video signal of each clip from the visual signal of each clip.
  • the feature amount of the visual signal is calculated. Further, the video signal similarity calculation unit 23 divides the clip into audio signal frames, and classifies each audio signal frame into an audio frame and a background sound frame based on the energy and spectrum of the audio signal in each frame. The feature amount of the audio signal is calculated. Furthermore, the video signal similarity calculation unit 23 calculates the similarity between scenes based on the feature values of the visual signal and the audio signal in units of clips, and stores the similarity as video signal similarity data 12 in the storage device 107.
  • step S201 a video signal corresponding to a scene is divided into clips.
  • step S202 the feature amount of the visual signal is calculated in step S202, and the feature amount of the audio signal is calculated in step S203.
  • step S204 the similarity between the scenes is calculated in step S204.
  • step S205 the video signal similarity calculation unit 23 stores the scene similarity in the storage device 107 as the video signal similarity data 12 that is the similarity of the video information between the scenes in step S204.
  • the audio signal similarity calculating unit 24 includes, for each scene divided by the scene dividing unit 21, a similarity based on the base sound of the audio signal, a similarity based on an instrument excluding the base, and a similarity based on a rhythm.
  • the audio signal similarity data 13 is generated by calculating the audio signal similarity between scenes.
  • the similarity is a similarity between a certain scene and another scene based on a bass sound, an instrument other than a bass, and a rhythm. For example, if n scenes are stored in the moving image database 11, the first scene has a bass sound with the second scene, a musical instrument other than the bass, a similarity based on the rhythm, and a third scene.
  • Similarity based on each of the base sound, the musical instrument excluding the bass, and the rhythm The similarity based on the bass sound with the nth scene, the musical instrument other than the bass, and the rhythm is calculated. More specifically, when calculating the similarity based on the base sound, the audio signal similarity calculating unit 24 acquires the base sound from the audio signal, calculates a power spectrum focusing on time and frequency, The similarity based on the base sound is calculated for the two scenes. Further, when calculating the similarity based on the musical instrument excluding the bass sound, the audio signal similarity calculating unit 24 calculates the energy of the frequency indicated by each pitch name for the sound having a higher frequency range than the base sound from the audio signal.
  • the audio signal similarity calculation unit 24 repeats the division of the high-frequency component and the low-frequency component of the audio signal by a predetermined number of times using the two-divided filter bank, and from the signal including the high-frequency component.
  • An autocorrelation function is calculated by detecting the envelope, and a rhythm-based similarity is calculated for any two scenes based on the autocorrelation function.
  • step S301 the similarity based on the base sound of the audio signal corresponding to the scene is calculated.
  • step S302 the similarity of the audio signal based on an instrument other than the bass sound is calculated.
  • step S303 the similarity based on the rhythm of the audio signal is calculated.
  • step S304 the audio signal similarity calculation unit 24 calculates the similarity based on the bass sound, the instrument excluding the bass, and the rhythm calculated in steps S301 to S303 as the similarity of the acoustic information between scenes.
  • the audio signal similarity data 13 is stored in the storage device 107.
  • step S311 a bass sound is extracted through a predetermined band pass filter.
  • the predetermined band is a band corresponding to the bass sound, and is, for example, 40 Hz to 250 Hz.
  • step S312 paying attention to time and frequency, a weighted power spectrum is calculated, and in step S313, a bass pitch is estimated using the weighted power spectrum. Further, in step S314, the similarity of the bass pitch is calculated using DTW.
  • step S321 the energy of the frequency indicated by the pitch name is calculated.
  • the energy of the frequency indicated by each pitch name is calculated.
  • step S322 the ratio of the energy with respect to the whole frequency range is calculated about the energy of the frequency which each pitch name shows.
  • step S323 the similarity of the energy ratio of the pitch name is calculated using DTW.
  • step S331 the low-frequency component and the high-frequency component are calculated by repeating the division a predetermined number of times by the two-divided filter bank. Thereby, it is possible to estimate a rhythm by a plurality of types of instrument sounds.
  • the envelopes are detected by the processing from step S332 to step S335, and the outline of each signal is acquired. Specifically, full-wave rectification is performed on the waveform acquired in step S331 in step S332, and a low-pass filter is applied in step S333. Further, in step S334, downsampling is performed, and in step S335, the average value is removed.
  • an autocorrelation function is calculated in step S336, and a rhythm function similarity is calculated using DTW in step S337.
  • the text similarity calculating unit 25 converts the audio signal of the audio signal into text data, and the text similarity between scenes is determined from the frequency of nouns in the text data.
  • the text similarity data 14 is generated by calculating the degree. More specifically, the text similarity calculation unit 25 calculates a mel frequency cepstrum coefficient of the audio signal for each scene divided by the scene dividing unit 21, and performs speech recognition processing on the calculated mel frequency cepstrum coefficient.
  • morphological analysis of the text data is performed to extract nouns, and based on the frequency of the extracted nouns, detected words that are characteristic of the scene are output to calculate text similarity.
  • step S401 the audio signal in the scene is divided.
  • the text similarity calculation unit 25 detects a silent section and divides the audio signal for each silent section. Thereby, the text similarity calculation part 25 can produce
  • step S402 the text similarity calculation unit 25 calculates a Mel-Frequency Cepstrum coefficient (MFCC) for the audio signal other than the silent section generated in step S401, and in step S403, speech recognition is performed.
  • the audio signal is converted into text data.
  • step S404 the text similarity calculation unit 25 extracts nouns from the text data generated in step S403.
  • MFCC Mel-Frequency Cepstrum coefficient
  • step S405 the text similarity calculation unit 25 calculates TF-IDF for the noun extracted in step S404 for each section of the scene to be processed. Further, in step S406, the text similarity calculation unit 25 calculates a similarity based on the text between scenes. In step S407, the similarity based on the text between the scenes is stored in the storage device 107 as the text similarity data 14.
  • the search unit 26 includes a similarity calculation unit 27 and a scene search unit 28.
  • the similarity calculation unit 27 is similar to the video signal similarity of each scene searched by the video signal similarity calculation unit 23, the audio signal similarity and text similarity of each scene searched by the audio signal similarity calculation unit 24.
  • One or more of the text similarity of each scene retrieved by the calculation unit 25 is acquired, and the similarity D with the query moving image data is calculated for each scene.
  • the similarity D is calculated based on a search condition designated by the user from each similarity of the video signal, the audio signal, and the text for each scene.
  • the search condition is a weight of each parameter when a search is performed based on any parameter of the video signal, the audio signal, and the text, and a plurality of parameters are designated.
  • the similarity calculation unit 27 generates a similarity calculation formula for calculating the similarity according to the specified search condition, and calculates the similarity D by substituting each similarity in the similarity calculation formula.
  • the scene search unit 28 refers to the similarity D of each scene calculated by the similarity calculation unit 27 and extracts a scene having a high similarity.
  • a predetermined number of scenes may be extracted from those having a high similarity D, or scenes having a similarity D of a predetermined threshold or more may be extracted.
  • step S501 a search condition is acquired.
  • the search condition is one or more parameters of the video signal, audio signal, and text and the weight of each parameter, and is input by the user, for example.
  • step S502 the similarity calculation unit 27 generates and outputs a similarity calculation formula for calculating the similarity D from the search condition input in step S501.
  • the similarity calculation formula is expressed by the similarity between the video signal, the audio signal, and the text, and the weight corresponding to each parameter.
  • the similarity D is calculated for each scene. Specifically, in step S503, the similarity calculation unit 27 reads the video signal similarity data 12 from the storage device 107, and extracts the video signal similarity of a predetermined scene. In step S504, the similarity calculation unit 27 reads the audio signal similarity data 13 from the storage device 107, and extracts the audio signal similarity of this scene. In step S505, the similarity calculation unit 27 reads the text similarity data 12 from the storage device 107, and extracts the text similarity of this scene. In step S506, the similarity calculation unit 27 calculates the similarity D of this scene by substituting the similarities extracted in steps S503 to S505 into the similarity calculation formula.
  • the scene search unit 28 extracts a scene with a high similarity D in step S507.
  • the display unit 29 calculates, for each scene searched by the scene search unit 28, coordinates corresponding to the similarity acquired by the similarity calculation unit 27, and displays them on the display device.
  • the display unit 29 calculates coordinates based on the similarity of parameters specified by the search condition among the video signal similarity, audio signal similarity, and text similarity calculated by the classification unit 22. For example, when all three parameters are specified in the search condition, the video signal similarity, the audio signal similarity, and the text similarity correspond to each coordinate in the three-dimensional space.
  • the display unit 29 calculates a three-dimensional coordinate for each scene and converts the coordinate into a two-dimensional coordinate on the display screen.
  • the display unit 29 displays the thumbnail of each scene on the converted two-dimensional coordinates.
  • step S601 the display unit 29 calculates coordinates in the three-dimensional space for the scene extracted by the scene search unit 28.
  • This coordinate corresponds to, for example, the video signal similarity, audio signal similarity, and text similarity of the scene. Further, the coordinates may be calculated in consideration of the weight of each parameter.
  • step S602 the coordinates in the three-dimensional space calculated in step S601 are perspective-transformed and converted into coordinates in the two-dimensional space.
  • the thumbnail of the scene is displayed on the display screen in step S603. For each scene searched by the scene search unit 29, the processing from step S601 to step S603 is repeated, and the thumbnail of each scene is displayed on the display screen.
  • the scene division unit 21 divides the video signal into scene units in order to calculate the similarity between the videos existing in the database.
  • the scene can be calculated by using both the audio signal of the video signal obtained from the moving image database 11 and the moving image frame.
  • the scene division unit 21 first divides the audio signal into small sections called clips, calculates feature amounts for each, and further reduces feature amounts by PCA (principal component analysis). Next, the scene division unit 21 prepares audio classes (silence, speech, music, etc.) representing the types of audio signals, and obtains the probability that each clip belongs to those classes, that is, the belonging probability, by MGD. Furthermore, in the best mode of the present invention, the scene dividing unit 21 is a section in which a single camera is continuously photographed by using the ⁇ 2 test for the visual signal (frame) in the video. Divide into shots.
  • PCA Principal component analysis
  • the scene division unit 21 obtains the average probability of belonging to the audio class for the clip of the audio signal included in each shot, thereby obtaining the probability of belonging to the audio class as a shot.
  • the scene dividing unit 21 calculates a fuzzy inference value of a shot class representing the type of shot by performing fuzzy inference for each shot from the obtained belonging probability.
  • the scene dividing unit 21 obtains a difference of fuzzy inference values between all adjacent shots, and obtains a continuous section having a small value as one scene.
  • the degree (fuzzy inference value) that the shot to be processed belongs to each shot class is obtained.
  • the shot classification result may differ depending on the subjective evaluation of the user. For example, if the music in the background has a very low volume, the audio signal should be classified as "sound with music” or the main "sound” Depends on user requirements. Therefore, by giving the fuzzy inference values of all shot clusters to the shot and finally obtaining the difference, it is possible to divide the scene in consideration of the subjective evaluation of the user.
  • the signal to be processed is classified into an audio class.
  • audio signals that are composed of a single audio class such as music and voice
  • audio in an environment where music exists in the background sound with noise
  • environments where noise exists in the background There are many things composed of multiple types of audio classes, such as the voice below (sound with noise).
  • the degree (hereinafter referred to as attribution probability) that an audio signal belongs to four types of audio classes defined below is calculated using PCA and MGD.
  • attribution probability The attribution probability to each audio class is calculated by performing three classification processes “CLS # 1” to “CLS # 3” shown in FIG. 16 and using the classification results.
  • the classification processes from CLS # 1 to CLS # 3 are all the same procedure, and “calculation of feature value”, “application of PCA”, and Three processes of “calculation of MGD” are processed.
  • the reference signal includes one (or a plurality) of audio signals of Si, Sp, Mu, No depending on the purpose of the classification process.
  • each process will be described.
  • the scene division unit 21 uses the audio signal to be processed and the two types of reference signals shown in FIG. 17 as follows: the audio signal frame unit (frame length: W f ), the feature amount and the clip unit (clip) The feature value of length: W c , where W c > W f ) is calculated.
  • -Feature value per frame Volume, zero-crossing rate, pitch, frequency center position, frequency bandwidth, subband energy ratio-feature quantities in clip units: Non-silence rate, zero ratio
  • the scene dividing unit 21 calculates an average value and a standard deviation in the clip of the feature quantity in the frame unit of the audio signal, and adds them to the feature quantity in the clip unit.
  • step S1101 the scene dividing unit 21 divides an audio signal of one clip into audio signal frames.
  • step S1102 to S1107 the scene division unit 21 calculates volume, zero crossing rate, pitch, frequency center position, frequency bandwidth, and subband energy ratio.
  • step S1108 the scene division unit 21 calculates the average value for each feature amount of the volume, zero crossing rate, pitch, frequency center position, frequency bandwidth, and subband energy ratio of each audio signal included in one clip. And calculate the standard deviation.
  • step S1109 the scene dividing unit 21 calculates a silence rate for one clip of the audio signal, and calculates a zero ratio in step S1110.
  • step S ⁇ b> 1111 the scene dividing unit 21 integrates the feature values of the average value, the standard deviation, the silence rate, and the zero ratio calculated in steps S ⁇ b> 1108 to S ⁇ b> 1110 and outputs the integrated feature values of the audio signal in the clip.
  • the scene division unit 21 normalizes the feature amount calculated from the clip of the signal to be processed and the feature amount in clip units calculated from the two types of reference signals, and performs PCA. By applying PCA, it is possible to reduce the influence between highly correlated feature amounts. In addition, among the main components obtained from PCA, those whose eigenvalues are 1 or more are used in the subsequent processing, so that it is possible to avoid an increase in calculation amount and a phenomenon of fuse.
  • the reference signal used here differs depending on the class to be classified. For example, “CLS # 1” illustrated in FIG. 16 is classified into Si + No and Sp + Mu.
  • One of the two types of reference signals used at this time is a signal in which a signal composed only of silence (Si) and a signal composed only of noise (No) are connected in the time axis direction so as not to overlap. It is.
  • Another reference signal is a signal obtained by connecting a signal composed only of speech (Sp) and a signal composed only of music (Mu) in the time axis direction so as not to overlap.
  • the two types of reference signals used in “CLS # 2” are a signal composed only of silence (Si) and a signal composed only of noise (No).
  • the two types of reference signals used in “CLS # 3” are a signal composed of only sound (Sp) and a signal composed of only music (Mu).
  • PCA principal component analysis
  • FIG. 19A is a process for outputting the main component of the clip of the signal to be processed
  • FIG. 19B is a process for outputting the main component of the clip of the reference signal 1 and the reference signal 2.
  • the process shown in FIG. 19A will be described.
  • step S1201 the clip feature amount of the processing target signal calculated according to the processing described with reference to FIG. 18 is input.
  • the scene dividing unit 21 normalizes the feature amount of each clip in step S1204, and performs PCA (principal component analysis) in step S1205.
  • PCA principal component analysis
  • step S1251 the feature amount calculated from the clip of reference signal 1 is input, and in step 1252, the feature amount calculated from the clip of reference signal 2 is input.
  • step S1253 the scene dividing unit 21 normalizes the feature amount of each clip for each of the reference signal 1 and the reference signal 2, and performs PCA (principal component analysis) in step S1254.
  • step S1255 the scene dividing unit 21 calculates a principal component axis whose fixed value is 1 or more, and outputs one principal component for the reference signal 1 and the reference signal 2.
  • the reference signal 1 and the reference signal 2 input here differ depending on the class classification process as described above. For every CLS # 1 to CLS # 3 to be described later, the process of FIG. 19B is executed in advance for all the reference signals 1 and 2 used in each classification process.
  • the scene division unit 21 calculates MGD using the main component obtained by the feature amount reduction processing by PCA.
  • MGD Mohalanobis general distance
  • MGD is a distance calculated based on the correlation between multiple variables.
  • the distance between the processing target signal and the feature vector group of the reference signal is calculated by the Mahalanobis general distance. Thereby, it is possible to calculate the distance in consideration of the distribution shape of the principal component obtained by the principal component analysis.
  • a feature vector group of two types of reference signals calculated in the same manner Is calculated by the following equation.
  • each of the classification processes of CLS # 1 to CLS3 the above three are processed to obtain the attribution Is obtained. Therefore, the probability of belonging to each audio class (Si, Sp, Mu, No) Is defined below.
  • the above formula is obtained in each classification process from CLS # 1 to CLS # 3. Represents the probability of being classified into the same cluster as the reference signals 1 and 2, and by adding them, the probability belonging to the audio classes of Si, Sp, Mu, No is calculated. Therefore, this attribution probability Thus, it is possible to know to what extent the audio signal to be processed belongs to which audio class.
  • step S1301 a vector having the principal component of each clip of the processing target signal as an element is input.
  • the vector input here is the data calculated by FIG. 19A described above.
  • steps S1302 to S1305 are processed as the classification processing of CLS # 1. Specifically, in step S1302, the distance between the processing target signal and the reference signal 1 is calculated, and in step S1303, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 1 is calculated. Further, in step S1304, the distance between the processing target signal and the reference signal 2 is calculated, and in step S1305, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 2 is calculated.
  • steps S1306 to S1309 are processed as the classification processing of CLS # 2. Specifically, in step S1306, the distance between the processing target signal and the reference signal 1 is calculated, and in step S1307, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 1 is calculated. Further, in step S1308, the distance between the processing target signal and the reference signal 2 is calculated, and in step S1309, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 2 is calculated.
  • step S1310 on the basis of the degree of membership calculated in step S1303 and step S1307, membership probability P 1 to the audio class Si is calculated.
  • step S1311 on the basis of the degree of membership calculated in step S1303 and step S1309, membership probability P 4 to the audio class No is calculated.
  • steps S1312 to S1315 are processed as the classification processing of CLS # 3. Specifically, in step S1312, the distance between the processing target signal and the reference signal 1 is calculated, and in step S1313, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 1 is calculated. Further, in step S1314, the distance between the processing target signal and the reference signal 2 is calculated, and in step S1315, the degree of belonging to which the processing target signal belongs to the cluster of the reference signal 2 is calculated.
  • step S1316 on the basis of the degree of membership calculated in step S1305 and step S1313, membership probability P 2 to the audio class Sp is calculated.
  • step S1317 on the basis of the degree of membership calculated in step S1305 and step S1315, membership probability P 3 to the audio class Mu is calculated.
  • a shot cut is obtained using a split ⁇ 2 test.
  • f represents the frame number of the video signal
  • r represents the region number
  • b represents the number of bins in the histogram.
  • step S1401 the scene dividing unit 21 acquires the data of the frame of the visual signal.
  • step S1404 a color histogram difference evaluation Er is calculated between frames of adjacent visual signals. Among the difference evaluation Er calculated for each rectangular area, eight smaller sums E sum are calculated.
  • step S1406 a shot cut is determined at a time when E sum is larger than the threshold value, and a shot section is output.
  • a shot interval is output by determining that a time when the color histogram changes greatly in an adjacent interval is a shot cut.
  • step S108 the calculation process of the belonging probability to the audio class for each shot.
  • the average value of the probability of belonging to each audio class within a single shot Is calculated by the following equation. Where N is the total number of clips in the shot, k is the clip number in the shot, Is the membership probability in the kth clip Represents. These four average values By observing the value of, it is possible to know which type of audio signal among silence, voice, music and noise is included in the shot to be classified.
  • the attribution probability calculated by the conventional method represents the degree to which each clip of the audio signal belongs to each audio class. In addition to the probability of belonging, the probability of belonging to the audio class of music and noise is also high. Therefore, On the other hand, by performing fuzzy inference, each shot is classified into six types of shot classes: silence, voice, music, noise, voice with music, and voice with noise.
  • signals to be processed are classified into four audio classes: silence, voice, music, and noise.
  • these four types of classes alone, there are multiple types of voices, such as voices in an environment with music in the background (sound with noise) and voices in an environment with noise in the background (sound with noise).
  • the scene division unit 21 classifies into six audio classes including a new class of voice with music and voice with noise in addition to the above four audio classes. Thereby, classification accuracy can be improved and a similar scene can be searched with higher accuracy.
  • the scene dividing unit 21 prepares the following 11 stages of fuzzy variables.
  • NB Negative Big
  • NBM Negative Big Medium
  • NM Negative Medium
  • NSM Negative Small Medium
  • NS Negative Small
  • ZO Zero
  • PS Positive Small
  • PSM Positive Small Medium
  • PM Positive Medium
  • PBM Positive Big Medium
  • PB a triangular membership function defined by the following equation is determined for each fuzzy variable, and a fuzzy set is generated by assigning each variable as shown in FIG.
  • step S109 in FIG. the input variable set in the calculation processing of the probability of belonging to the audio class for each shot, and the value of the membership function
  • step S109 in FIG. the input variable set in the calculation processing of the probability of belonging to the audio class for each shot, and the value of the membership function
  • the fuzzy control rules shown in FIGS. Apply the output variable for each shot class And membership function values Is calculated.
  • the scene dividing unit 21 determines the degree of belonging to each shot class calculated by fuzzy inference processing.
  • is a shot number
  • D ( ⁇ 1 , ⁇ 2 ) between adjacent shots is defined by the following equation.
  • step S1501 the average value of the belonging probability in all clips of each shot is calculated.
  • step S1502 eleven levels of fuzzy coefficients are read out, and a membership function for each shot is calculated.
  • the processing in step S1501 and step S1502 corresponds to processing for calculating the belonging probability to the audio class for each shot.
  • step S1503 the output and the value of the membership function of the output are calculated from the values of the input variable and the membership function.
  • the fuzzy control rules shown in FIGS. 23 and 24 are referred to.
  • step S1503 corresponds to a calculation process of the probability of belonging to the audio class for each shot. Further, in step S1504, the distance of the membership function between different shots is calculated, and in step S1505, it is determined whether the distance is larger than the threshold value. When the distance is larger than the threshold value, the scene cut of the video signal is determined between the frames, and the scene section is output.
  • the processing in steps S1504 and S1505 corresponds to scene division processing using fuzzy inference values.
  • the probability of belonging to the audio class for the audio signal of the clip belonging to each shot is set.
  • the scene can be divided using the fuzzy inference value.
  • the video signal similarity calculation unit 23 calculates the similarity between the scenes of the video existing in the moving image database 11 as the similarity from the feature amount of the visual (moving image) signal and the feature amount of the audio signal.
  • the scene in the video is divided into clips, and the feature amount of the visual signal and the feature amount of the audio signal are extracted for each.
  • the similarity between scenes can be calculated by setting a three-dimensional DTW for these feature quantities.
  • DTW is a technique for calculating the similarity between signals by expanding and contracting two one-dimensional signals. Therefore, it is effective for comparison between signals in which signal expansion and contraction frequently occur.
  • the DTW that has been defined in the previous two dimensions is redefined in the three dimensions, and the cost for using them is newly set.
  • the cost for using them is newly set.
  • the cost to each of the visual signal and the audio signal it is possible to search or classify similar videos even when one of the moving image and the sound is different between the two scenes.
  • the time scale between scenes differs due to the characteristics of the DTW, or when the start time of the visual signal and the audio signal varies between scenes, it is possible to appropriately associate similar parts between scenes. .
  • the video signal similarity calculation unit 23 calculates the similarity between scenes by paying attention to both the visual signal (moving image signal) and the audio signal (sound signal) included in the video.
  • a given scene is divided into short-time clips, and the scene is expressed as a one-dimensional sequence of clips.
  • the video signal similarity calculation unit 23 extracts the feature amount based on the visual signal and the feature amount based on the audio signal from each clip.
  • the video signal similarity calculation unit 23 associates the similar portions of the feature amounts between the clip sequences using DTW, and defines the obtained optimum path as the similarity between scenes.
  • the DTW is newly expanded and used in three dimensions, so that the similarity between scenes can be calculated by the cooperative processing of the visual signal and the audio signal.
  • each process will be described.
  • a process for dividing a video signal into clips will be described. This process corresponds to step S201 in FIG.
  • a scene to be processed is divided into short-time T c [sec] clips.
  • the feature amount extraction process of the visual signal corresponds to step S202 in FIG.
  • the feature amount of the visual signal is extracted from each clip obtained by dividing the video signal into clips.
  • attention is paid to the color component of an image as a feature of a visual signal, and a color histogram in the HSV color system is calculated from a predetermined frame of a moving image of each clip and used as a feature amount.
  • the predetermined frame of the moving image is, for example, the first frame of the moving image of each clip. Focusing on the fact that hue is more important in the human perception system, the number of bins in the histogram of hue, saturation, and brightness is set to 12, 2, and 2, for example. Therefore, the feature amount of the visual signal obtained from the clip unit is 48 dimensions in total. In this embodiment, the case where the number of bins in the histogram of hue, saturation, and lightness is 12, 2, and 2 will be described, but it may be arbitrarily set.
  • step S2101 a predetermined frame of the clip moving image is extracted, and in step S2102, the RGB color system is converted to the HSV color system.
  • step S2103 for example, a three-dimensional color histogram is generated by dividing the H axis into 12, the S axis into 2, and the V axis into 2, and the three-dimensional color histogram is calculated as the feature amount of the visual signal of the clip. To do.
  • the feature amount of the audio signal is extracted from each clip obtained by dividing the video signal into clips.
  • a 10-dimensional feature value is used as a feature value of an audio signal.
  • the audio signal included in the clip is analyzed for each frame having a fixed length T f [sec] (T f ⁇ T c ).
  • T f [sec] T f ⁇ T c
  • STE short time energy
  • STS short time spectrum
  • STE and STS obtained from each frame of the audio signal are defined by the following equations.
  • is the frame number of the audio signal
  • F s is the number of movements indicating the movement width of the frame of the audio signal
  • x (m) is an audio discrete signal
  • ⁇ (m) is m if m is in the time frame. Take 1 and 0 otherwise.
  • STS (k) has a frequency
  • f is a discrete sampling frequency. If the STE value exceeds the threshold Th 1 and the STS value in the range of 440 to 4000 Hz exceeds the threshold TH 2 , the frame of the audio signal is classified as a voice frame. If not, the frame of the audio signal is classified as a background sound frame.
  • the average energy is an average of the energy of all frames of the audio signal in the clip.
  • the low energy rate (low STE rate) is the ratio of background sound frames having energy equal to or lower than the average energy in the clip.
  • the average zero-crossing rate is an average of the rate at which the signs of adjacent audio signals change in all background sound frames in the clip.
  • the spectral flux density is an index of time transition of the frequency spectrum of the audio signal in the clip.
  • VFR Voice frame rate
  • VFR is the ratio of audio frames in all frames of the audio signal included in the clip.
  • the average subband energy ratio is 0-630, 630-1720, 1720-4400, 4400-11000 (with respect to the sum of the power spectrum at all frequencies with respect to the audio spectrum of the audio signal in the clip. Hz) in each range.
  • STE standard deviation ESTD The standard deviation ESTD of STE is defined by the following equation.
  • the energy (STE) standard deviation is a standard deviation of energy of all frames of the audio signal in the clip.
  • step S2201 each clip of the audio signal is divided into short audio signal frames.
  • step S2202 the energy of the audio signal in the frame of the audio signal is calculated, and in step S2203, the spectrum of the audio signal in the frame is calculated.
  • step S2204 each frame of the audio signal divided in step S2201 is classified into a voice frame and a background sound frame. Based on the classified frames of the audio signal, in step S2205, the above-described feature amounts a) to g) are calculated.
  • the similarity between scenes is defined by using the feature amount of each clip obtained by the feature amount extraction processing of the visual signal and the feature amount extraction processing of the audio signal.
  • DTW is used for comparison of clip sequences to associate similar portions, and the obtained optimum path is defined as the similarity between scenes.
  • the local cost used for DTW is determined based on the difference between all the feature quantities between clips, when only one of the signals is similar between scenes, or between the visual signal and the audio signal between scenes There is a possibility that an appropriate degree of similarity may not be obtained, for example, when a deviation occurs at the start time.
  • f v, t is a feature vector obtained from the visual signal included in the clip at time t
  • f A, t is a feature vector obtained from the audio signal included in the clip at time t.
  • Each lattice point on the three-dimensional DTW used in the best embodiment of the present invention is a local path from the previous seven lattice points as shown in FIGS. They are connected by # 1 to # 7.
  • the role each local path has is shown below.
  • a) Local paths # 1 and # 2 Local paths # 1 and # 2 are paths that allow expansion and contraction in units of clips.
  • Path # 1 has a role of allowing expansion / contraction of the clip of the query scene in the time axis direction, and pass # 2 allows expansion / contraction of the clip of the target scene in the time axis direction.
  • Local paths # 3 to # 5 Local paths # 3 to # 5 are paths to which similar parts are associated.
  • path # 3 has a role of associating a visual signal, path # 4 with an audio signal, and path # 5 having both signals as similar parts.
  • c) Local paths # 6 and # 7 Local paths # 6 and # 7 are paths that allow a shift due to synchronization of both signals.
  • the path # 6 has a role of allowing a shift of the visual signal in the time axis direction between scenes
  • the path ## 7 has a role of allowing a shift of the audio signal in the time axis direction between scenes.
  • step S2301 matching is performed based on the feature quantity between scenes using the three-dimensional DTW. Specifically, the minimum one of the seven results in ⁇ in the above (Formula 2-10) is selected.
  • step S2302 a local cost required for the three-dimensional DTW is set, and in step S2303, a local path is set.
  • step S2304 ⁇ , ⁇ , and ⁇ movement costs are added.
  • is the movement cost of path # 1 and path # 2
  • is the movement cost of path # 3 and path # 4
  • is the movement cost of path # 6 and path # 7.
  • step S2305 the optimum route by matching is calculated as the similarity between scenes.
  • the similarity between scenes is calculated using the three-dimensional DTW based on the feature amount of the visual signal and the feature amount of the audio signal.
  • the similarity of the scene can be visualized based on the three-dimensional coordinates on the display unit described later.
  • DTW is a technique for calculating the similarity between signals by expanding and contracting two one-dimensional signals. For this reason, it is effective for comparison of signals that cause expansion and contraction in time series. Particularly in music signals, performance speed changes frequently, so it is considered effective to use DTW for calculating the similarity obtained from the similarity.
  • a signal to be referred to is referred to as a reference pattern
  • a signal for calculating the similarity to the reference pattern is referred to as a referenced pattern.
  • each element included in the one-dimensional reference pattern of length I is sequentially a 1 , a 2 ,... A I
  • each element included in the reference pattern of length J is sequentially b 1 , b 2 ,. ⁇ b J to representation.
  • the expansion / contraction map w ⁇ 1, 2, ..., I ⁇ -> ⁇ 1, 2, ..., J ⁇ satisfy the following properties. a) w matches the start and end points of the pattern. b) w is a monotone map.
  • the path length of the part is determined by the cost d (j, i) at the lattice point (j, i) on the route and the movement cost c j, i (b) between the two lattice points (j, i) and (b, a). , A).
  • the calculation of the path length of the part is shown in FIG.
  • the cost d (j, i) on the lattice point is a penalty when the corresponding elements are different between the reference pattern and the referenced pattern.
  • the movement cost c j, i (b, a) is a penalty for moving from the lattice point (b, a) to the lattice point (j, i) when expansion / contraction occurs between the reference pattern and the referenced pattern. is there.
  • the partial path length is calculated based on the above cost, and the partial path that minimizes the cost of the entire path is selected. Finally, the total path length can be obtained by calculating the sum of the costs for each selected partial path. As described above, the similarity of the entire pattern can be obtained from the similarity of each part of the pattern.
  • DTW is applied to an audio signal
  • a more detailed similarity calculation method is determined in consideration of characteristics in audio signal similarity calculation.
  • attention is paid to the fact that, as a feature of music, notes on a score are not lost even when performance speeds of the same music are different. In other words, it can be expressed by the following two points. a) If the referenced pattern is a pattern obtained by adding only expansion / contraction to the reference pattern, these patterns are regarded as the same. b) When the referenced pattern and the reference pattern are the same, the referenced pattern contains the reference pattern without omission.
  • the similarity by DTW is calculated according to the above conditions.
  • the similarity can be calculated by recursively obtaining the path length using (Equation 2-15).
  • the audio signal similarity calculation unit 24 calculates the similarity in order to search or classify the scene calculated by the scene division unit 21 while paying attention to music information.
  • the similarity based on the base sound of the audio signal, the similarity based on other instruments, and the similarity based on rhythm in all scenes obtained by the scene dividing unit 21 from the moving image database 11 are obtained. calculate.
  • the audio signal similarity calculation unit 24 calculates the following three types of similarity for audio signals. ⁇ Similarity calculation based on bass sound ⁇ Similarity calculation based on other instruments ⁇ Similarity calculation based on rhythm
  • a band-pass filter is applied to the audio signal in order to obtain only a signal having a frequency considered to include the base sound.
  • the audio signal similarity calculation unit 24 calculates a weighted power spectrum using a weighting function focused on time and frequency. Furthermore, the audio signal similarity calculation unit 24 obtains a frequency having a peak in the obtained power spectrum at each time, thereby enabling estimation of the bass pitch. Furthermore, the audio signal similarity calculation unit 24 obtains the transition of the base pitch of the audio signal between all two scenes, and inputs this to the DTW, thereby realizing the similarity of the two signals.
  • the frequency indicating the 12 elements of the pitch name such as “do”, “re”, “mi”, “so #”, etc.
  • the time transition of the energy ratio is calculated.
  • signals including different frequencies are calculated by using a two-divided filter bank for audio signals.
  • an envelope is detected for a signal including each frequency to obtain an outline of the signal.
  • the envelope is a “curve that shares a tangent at each time of a signal”. This process is realized by sequentially performing “full wave rectification”, “application of a low-pass filter”, “down sampling”, and “average value removal”. Further, an autocorrelation function is obtained for a signal obtained by adding all these signals, and this is defined as a rhythm function. Finally, between all two scenes, the rhythm function of these audio signals is input to the DTW, thereby realizing the similarity between the two signals.
  • a melody in music is a time transition of a fundamental frequency composed of a plurality of sound sources.
  • the melody is composed of a bass sound and other instrument sounds according to the definition of the melody.
  • the similarity is obtained by performing matching processing on the transition of energy indicated by the bass sound and the transition of energy indicated by instruments other than the bass.
  • the energy indicated by the bass sound the power spectrum in the frequency region where the bass sound exists, and for the energy indicated by the other instrument sounds, the energy of the frequency indicated by the pitch name such as C, D, E.
  • the musical instrument sound includes many harmonics of the fundamental frequency (hereinafter referred to as harmonic structure), it is difficult to specify the fundamental frequency as the frequency range increases.
  • the music contains noise such as a stringed sound that is generated during pronunciation, and a frequency that does not exist on the scale can be estimated as the fundamental frequency of the musical instrument sound.
  • the energy of the frequency indicated by each pitch name is used as the energy of the instrument sound other than the bass, so that the effects of the above harmonic structure and noise can be reduced.
  • the energy of the frequency indicated by each pitch name is used as the energy of the instrument sound other than the bass, so that the effects of the above harmonic structure and noise can be reduced.
  • a bass sound having a fundamental frequency in the low frequency range it is possible to calculate a similarity degree that further reduces the influence of the harmonic structure.
  • the DTW is used for calculating the similarity, the similarity can be calculated even when the melody is expanded or contracted or missing.
  • the best mode of the present invention can calculate the similarity between songs based on the melody.
  • rhythm in addition to melody, rhythm is known as an important element. Therefore, in the best mode of the present invention, attention is newly paid to rhythm as a component of music, and the similarity between songs is calculated from the rhythm. In addition, the similarity is calculated by using DTW, thereby allowing expansion and contraction of the music in the time axis direction and calculating an appropriate similarity.
  • the audio signal similarity calculation unit 24 performs "similarity based on base sound", "similarity based on other instruments", with respect to music information in a video, that is, an audio signal. Calculate “similarity based on rhythm”.
  • the degree of similarity of music is calculated by focusing on the transition of music melody.
  • the melody is composed of a bass sound and a musical instrument sound other than the bass. This is because the sound produced simultaneously by the bass sound and the other instrument sounds is an index of chords and keys that determine the characteristics of the melody.
  • the similarity can be calculated by applying DTW to the energy of each musical instrument sound based on the above assumption. Furthermore, in the preferred embodiment of the present invention, a new similarity based on the rhythm of the music is calculated. Rhythm in music is called three elements of music together with melodies and chords and is known as an important element that determines the detailed composition of music. Therefore, in the preferred embodiment of the present invention, the degree of similarity between songs is defined focusing on the rhythm.
  • rhythm function a quantitative value representing a rhythm
  • rhythm function a quantitative value representing a rhythm
  • the similarity is calculated by applying DTW to the rhythm function.
  • Similarity calculation processing based on the bass sound in the audio signal similarity calculation unit 24 will be described. This process corresponds to step S301 in FIG. 9 and FIG.
  • the transition of the pitch indicated by the bass sound is used as the transition of the bass sound in the music.
  • the pitch is the fundamental frequency indicated by each note written on the score. Therefore, the transition of the pitch means the transition of energy at the main frequencies included in the bass sound.
  • the bass sound is extracted by the band pass filter.
  • the power spectrum at this time is indicated by G11.
  • the audio signal similarity calculation unit 24 calculates a weighted power spectrum from this power spectrum, and assigns each scale as shown in G12.
  • the audio signal similarity calculation unit 24 calculates a histogram for each musical scale.
  • “B” having the maximum value in the histogram is selected as the scale of the bass sound.
  • the present invention is not limited to this method. Specifically, a histogram for each frequency may be acquired from the power spectrum, and a musical scale may be acquired from the maximum frequency.
  • step S311 the audio signal is subjected to a band pass filter whose pass band is a frequency range of 40 to 250 Hz of the base sound, and a power spectrum is calculated at each time of the obtained signal.
  • step S312 a calculation process of a weighted power spectrum focusing on time / frequency.
  • This process corresponds to step S312 in FIG.
  • weights based on a Gaussian function are added to the time axis direction and the frequency axis direction of the power spectrum obtained by the bass sound extraction process using the passband filter.
  • the weight of the time axis function the power spectrum at the target time is greatly utilized.
  • a weight in the frequency axis direction and placing a weight on each scale C, C #, D,..., H)
  • a signal on the scale is selected.
  • the frequency giving the maximum energy in the weighted power spectrum at each time is estimated as the pitch.
  • the energy calculated from the power spectrum at frequency f is P (t, f)
  • the weighted power spectrum is R (t, f) shown in (Equation 3-1).
  • F m shown in (Expression 3-4) represents a frequency in the mth note of MIDI (Musical Instrument Digital Interface).
  • R (t, f) shown in (Equation 3-1) makes it possible to estimate a fundamental frequency that lasts for a certain period of time as a pitch by the weight in the time axis direction of (Equation 3-2). Further, only the frequency existing on the scale can be estimated as the pitch by the weight in the frequency axis direction shown in (Equation 3-3).
  • step S313 the frequency f that gives the maximum value at each time t of R (t, f) is defined as B (t) with the base pitch as the base pitch.
  • each cost used in (Equation 2-15) is set as follows. However, ⁇ > ⁇ . As a result, the cost for the melody shift due to a change in performance speed or the like is smaller than the cost due to the melody mismatch.
  • the similarity obtained as described above represents a D b.
  • step S3101 to step S3109 is executed for each scene in the moving image database 11.
  • step S3101 Fourier transformation is performed on one scene.
  • step S3102 a filter having a pass band of 40 to 250 Hz is applied.
  • step S3103 the power spectrum P (s, f) is calculated for each time.
  • step S3104 the weight in the time axis direction is calculated in step S3104, and the weight in the frequency axis direction is calculated in step S3105. Further, in step S3106, a weighted power spectrum is calculated based on the weight in the time axis direction and the weight in the frequency axis direction calculated in steps S3104 and S3105, and R (t, f) is output in step S3107. . Further, the frequency f giving the maximum value of R (t, f) at each time t is obtained and is set to B (t). In step S3109, this B (t) is output as the time transition of the bass sound.
  • step S3110 in order to determine the cost d (i, j) in (Equation 3-6) between predetermined times, the coincidence of the base sounds is calculated.
  • step S3111 the cost d (i, j) and C i, j (b, a) in the DTW are set according to (Expression 3-6) and (Expression 3-7).
  • step S3112 the similarity based on DTW is calculated.
  • the energy of the frequency indicated by each pitch name the sum of the energy indicated by the frequency 2k times that in FIG. 35 is used.
  • X for example, C, C #, D, H, etc.
  • the sound exists in the octave unit as well as in one octave and two octaves.
  • fx the frequency of a certain scale
  • the audio signal has a signal length of T seconds and a sampling rate of f s , energy at time t (0 ⁇ t ⁇ T)) and frequency f is calculated from the power spectrum, and is expressed as P (t, f).
  • the energy of the frequency indicated by the pitch name is extracted. Specifically, the energy Px (t) of (Equation 4-1) described later is indicated by G21. As shown in G22, each scale is applied from this energy P X (t). Further, as indicated by G23, a histogram is calculated for each musical scale. In G23, Px (t) obtained by (Equation 4-1) is specifically shown as a result of adding the power spectrum of 4 octaves for each musical scale. In the process shown in FIG. 37, the energy P C (t), P C # (t),..., P H (t) for four octaves is calculated for each of the 12 scales from C to H. In FIG.
  • the scale is applied from the power spectrum, and then the scale of the bass sound is selected.
  • the present invention is not limited to this method. Specifically, a histogram for each frequency may be acquired from the power spectrum, and a musical scale may be acquired from the maximum frequency.
  • the energy of the frequency indicated by each pitch name is calculated from the power spectrum.
  • a frequency corresponding to the pitch name X in FIG. 35 as f X, energy P X of frequencies indicated by the pitch name X (t) is defined by the following equation.
  • K is Any integer that does not exceed.
  • the energy of the frequency indicated by each pitch name obtained by the calculation processing of the energy of the frequency indicated by the pitch name is expressed by the ratio of the energy to the entire frequency range. This makes it possible to compare in the time axis direction for each pitch name, and to obtain a transition.
  • the energy ratio px (t) of the frequency indicated by the pitch name X is expressed by the following equation. The above is applied to all t and X, and the obtained px (t) is used as a transition of energy in instrument sounds other than the bass.
  • step S323 the similarity calculation process of the pitch name energy ratio using DTW.
  • the energy of the instrument sound other than the base of the audio signal is calculated between all two images in the database, and expressed as px r (t) and px i (t), respectively.
  • the similarity by DTW is calculated for each pitch name. Therefore, the similarity is obtained by 12 which is the number of pitch names. Therefore, the similarity of instrument sounds other than the bass is defined by the sum of the similarities obtained for each pitch name. That is, assuming that the similarity obtained for the pitch name X is Da x , the similarity Da of the sound by the instrument other than the bass is expressed by the following equation.
  • Equation 4-3 makes it possible to calculate the similarity using the transition of the energy of the frequency indicated by all pitch names. Also, by setting the cost shown in (Equation 4-4), the influence of the pitch name corresponding to the frequency with large energy on the overall similarity is increased. As a result, similarity calculation reflecting the main frequency components constituting the melody can be performed.
  • step S3201 Fourier transformation is performed on one scene.
  • step S3202 the power spectrum at each time is calculated, and in step S3203, the frequency energy Px (t) indicated by the pitch name X is calculated to calculate px (t).
  • step S3204 energy of all frequencies is calculated.
  • step S3205 an energy ratio px (t) is calculated based on the energy Px (t) of the frequency indicated by the pitch name calculated in step S3203 and the energy of all frequencies calculated in step S3204.
  • step S3206 the energy ratio px (t) is output as the energy in the instrument sound other than the bass.
  • step S3207 the cost d (i, j) and C i, j (b, a) in the DTW are set.
  • step S3208 the similarity between the two scenes in each pitch name is calculated by the DTW.
  • step S3209 a sum Da of similarity of all pitch names calculated in step S3208 is calculated.
  • step S3210 this sum Da is output as the similarity of sounds by instruments other than the bass sound.
  • Similarity calculation based on rhythm In the audio signal similarity calculation unit 24, a rhythm-based similarity calculation process will be described. This process corresponds to step S303 in FIG. 9 and FIG.
  • a fine rhythm represented by the tempo of the music is defined by the interval of the sounding time in all musical instruments including percussion instruments.
  • the global rhythm is considered to be determined by the intervals at which musical phrases or passages composed of instrument sounds that are continuously generated appear. Therefore, since the rhythm is given by the above time interval, it does not depend on the time of the music within a certain section. Therefore, in the preferred embodiment of the present invention, it is assumed that the audio signal is weakly stationary, and the rhythm function is expressed by an autocorrelation function. Thereby, the best embodiment of the present invention uniquely expresses the rhythm of the music using the audio signal, and enables the calculation of the similarity based on the rhythm.
  • a specific algorithm is shown below. Each process corresponds to each step in FIG.
  • N U indicates the signal length of x u . Since each signal obtained in this manner indicates a different frequency band, it is considered that the types of musical instruments included are also different.
  • step S3301 it is divided into a low frequency component and a high frequency component by a two-divided filter.
  • the low frequency component divided in step S3301 is further divided into a low frequency component and a high frequency component in step S3302.
  • the high frequency component divided in step S3301 is further divided into a low frequency component and a high frequency component in step S3303.
  • the two-part filter processing is repeated a predetermined number of times (U times), and in step S3304, the signal x u (n) on the side containing the high frequency component is output.
  • the high-frequency component of the input signal is output by the low-frequency / high-frequency component calculation processing by the two-divided filter bank.
  • the envelope detection process corresponds to steps S332 to S335 in FIG.
  • the following 1) to 4) are steps S332 to S335 in FIG. 12, respectively.
  • the envelope is detected from the signal x u (n) obtained by the low frequency / high frequency component calculation processing by the two-divided filter bank.
  • An envelope is a curve that shares a tangent at each time of a signal, and makes it possible to obtain an outline of the signal. Therefore, by detecting the envelope, it is possible to estimate the time when the volume increases with the sound of the musical instrument. Details of the processing for detecting the envelope will be described below.
  • step S336 The signal y u (n) obtained by the envelope detection process is up-sampled to a sampling rate of 2 u ⁇ 1 times, equalized in signal length, and then added together.
  • N 1 represents the signal length.
  • autocorrelation it becomes easy to search for a repetitive pattern included in a signal and extract a periodic signal included in noise.
  • various audio signal features can be represented by factors extracted from the autocorrelation function.
  • the autocorrelation function calculated using a signal for a fixed time from time t is used as a rhythm function at time t, and is used for calculating similarity between music pieces.
  • the rhythm function includes a rhythm caused by a plurality of instrument sounds in order to express a period of time when the volume increases in a plurality of frequency ranges. For this reason, in the best mode of the present invention, the similarity of music can be calculated using a plurality of rhythms including a global rhythm from a local rhythm. Next, the similarity of music is calculated using the obtained rhythm function. First, let us consider the rhythm similarity.
  • the rhythm in the music varies depending on the performer and the arranger. For this reason, even if it is the same music, the whole or a part of music may be played at a different speed. For this reason, in order to define the similarity between music based on a rhythm, it is necessary to allow the fluctuation
  • step S3401 When an envelope is input in step S3401, the processes in steps S3402 to S3404 are repeated for the music and reference music in the scene to be processed.
  • step S3402 the envelope output based on the audio signal of the target scene is upsampled.
  • step S3403 all y u (n) are added to u to obtain y (n).
  • step S3404 an autocorrelation function Z (m) of y (n) is calculated.
  • the self-function Z (m) in the reference music is calculated.
  • step S3405 the self-function Z (m) in the music of the scene to be processed is used as a rhythm function, and the similarity to the self-function Z (m) in the reference music is calculated by applying DTW.
  • step S3406 the similarity is calculated. Output degrees.
  • the text similarity calculation unit 25 will be described with respect to a process for calculating the similarity for the scene calculated by the scene dividing unit 21 in order to search or classify by paying attention to the text.
  • speech recognition processing is performed between scenes existing in a database, and the similarity is calculated using the obtained recognition result.
  • MFCC Mel-Frequency Cepstrum Coefficient
  • speech recognition processing is performed on the calculated MFCC, and only nouns are extracted from the obtained recognition results. Furthermore, by calculating the value of TF-IDF with respect to the frequency of the obtained noun, it is possible to calculate the similarity between scenes focusing on text.
  • speech recognition processing is performed in a scene where a speaker is present, and the similarity is defined using the extracted nouns.
  • the similarity between scenes of the present invention is calculated by paying attention to nouns in text information obtained by speech recognition.
  • noun information obtained by speech recognition.
  • MFCC mel frequency cepstrum coefficient
  • the text similarity calculation unit 25 deletes the silent section and divides the acoustic signal for the scene of the moving image data to be processed.
  • the silent section is determined by applying discriminant analysis to the energy of. Specifically, the silent section is determined by the following equation. However, as the solution of the threshold T s discriminant analysis, it is calculated by the following equation.
  • E (i) represents the energy y (i) 2 of the signal y (i) rearranged in ascending order of energy.
  • (Expression 6-1) means that silence is determined if the energy E (i) of the signal y (i) is less than the threshold value T s .
  • FIG. 47 shows the basic principle of continuous speech recognition.
  • the acoustic model retains a frequency pattern of phonemes (corresponding to almost one Roman character) and syllables (corresponding to one kana character) and matches the input speech.
  • the word dictionary defines the vocabulary to be recognized and its pronunciation, and only those defined here are the objects of matching.
  • character recognition instead of recognizing characters after recognizing characters, characters are recognized while collating word dictionaries.
  • the language model defines a chain of words, and collation is performed with respect to the connection between part of speech and part of speech.
  • Speech recognition can be formulated as a problem of finding a word string W that maximizes the posterior probability p (W
  • the p (W) of the language model (Equation 6-9) in speech recognition is the probability that a pattern of a certain word string W will occur, which represents the linguistic certainty (independent of the speech ⁇ ). .
  • the probability is estimated based on the statistic of a word used in Japanese and the statistic that “ha” and “no” tend to follow “I”.
  • w 1 ,..., W i-1 ) is replaced with the latest N word chain p (w i
  • N 2 (two word chain)
  • the search is performed in two steps. In the first pass, relatively simple and high-speed speech recognition processing is performed on the input speech using bigram, and in the next second pass. The maximum likelihood solution is searched using the reverse trigram, and the final recognition result is determined.
  • Equation 6-9 Acoustic model in speech recognition
  • X) in (Equation 6-9) is the probability that a speech pattern X will occur from the word string W, and is evaluated based on matching by an acoustic model. To do. This corresponds to a normal pattern recognition process, and is performed using a model in which the pattern distribution is estimated.
  • an HMM Hidden Markov Model
  • phonemes almost equivalent to one Roman letter
  • phoneme notation is described in a word dictionary.
  • phoneme notation is described as faithfully as possible with actual pronunciation.
  • the triphone model prepares another template according to the front and rear phonemes.
  • the consonant / k / when the preceding vowel is / i / and the subsequent vowel is / a / is expressed as i ⁇ k + a.
  • this is not a template for the entire triplet of i ⁇ k + a, but a template for consonant / k /.
  • the triphone notation for the word “company” is “k + a k ⁇ a + i a ⁇ i + sh i ⁇ sh + a sh ⁇ a”.
  • the speech recognition result W is obtained by solving (Equation 6-9) using p (W) and p (W
  • Equation 6-12 each term of (Equation 6-12) is simplified as follows. Therefore, (Equation 6-12) is simplified as follows. Also, the probability in (Equation 6-15) is estimated by the following equation. Where C (w i , s i ) is the number of times the part of speech of the word w i appears as s i , C (s i ) is the number of times that the part of speech s i appears, and C (s i , s i + 1 ) is the part of speech s i. Represents the number of times the part of speech s i + 1 appears immediately after.
  • the TF-IDF method is a method for calculating the degree of characterizing a scene for each word appearing in the scene.
  • the degree to which a word is characteristic is calculated by the following equation.
  • TFIDF (t i , S j ) The value of TFIDF (t i , S j ) calculated by the above equation increases as TF (t i , S j ) increases and DF (t i ) decreases. That is, if many words t i appear in the scene S j and do not appear much in other scenes, the value of TFIDF (t i , S j ) increases.
  • the TFIDF tends to increase. Therefore, it is desirable to use a normalized value when comparing the TFIDF values between scenes. Therefore, the value of TFIDF is normalized by the following formula.
  • T is the number of types of words appearing in all scenes.
  • the search unit 26 searches for moving image data similar to the query moving image data.
  • the search unit 26 determines the similarity D of each scene when the query video appears based on one or more of the video signal similarity, audio signal similarity, and text similarity between the query video data and each scene. Is calculated. For the similarity D, the weight set for each parameter may be considered.
  • the search unit 26 outputs a scene having a high similarity D as a search result.
  • the display unit 29 is a user interface that displays search results from the search unit 26 and realizes video playback, search, and visualization of search or classification results.
  • the display unit 29 displays a thumbnail of the search result scene.
  • the user interface of the display unit 29 preferably has the following functions.
  • Video playback Video data stored in the video database 11 is placed at an arbitrary position for playback. At this time, the image of the frame behind the current frame position of the video being played back is arranged and displayed behind the video in the three-dimensional space. By constantly updating the position where each image is arranged, it is possible to obtain a visual effect such that the image flows from the back toward the front.
  • Cueing in units of scenes Cueing is performed in units of scenes divided by the scene dividing unit 21.
  • the frame position of the moving image is moved to the start position of the scene before and after the scene being reproduced by a user operation.
  • -Display of search results When a user performs a search operation during video playback, the search unit 26 searches for similar scenes and displays the search results.
  • the search for similar scenes is performed based on the similarity obtained by the classification unit 22.
  • the display unit 29 extracts a scene whose similarity with the query scene is smaller than a certain threshold from the moving image database 11 and displays it as a search result.
  • the axes in the three-dimensional space are three coordinates obtained by the three-dimensional DTW.
  • the axes in the three-dimensional space are similarities based on the base sound and similarities based on other instruments, respectively. The similarity is based on rhythm.
  • the similarity based on the classification algorithm focused on music information in the audio signal similarity calculation unit 24 is used in the text similarity calculation unit 25 of the classification unit 22
  • the similarity based on the classification algorithm focused on music information in the audio signal similarity calculation unit 24 is used in the text similarity calculation unit 25 of the classification unit 22
  • the similarity based on the classification algorithm focused on music information in the audio signal similarity calculation unit 24 is used in the text similarity calculation unit 25 of the classification unit 22
  • the similarity based on the classification algorithm focused on music information in the audio signal similarity calculation unit 24 is used in the text similarity calculation unit 25 of the classification unit 22
  • the similarity based on the classification algorithm focused on music information in the audio signal similarity calculation unit 24 is used in the text similarity calculation unit 25 of the classification unit 22
  • the similarity based on the classification algorithm focused on music information in the audio signal similarity calculation unit 24 is used in the text similarity calculation unit 25 of the classification unit 22
  • the video for the displayed search result video it is possible to search for a similar scene using the scene being played back at that time as a query.
  • the preference of the user may be determined using the preference board shown in FIG.
  • the preference board shown in FIG. 49 an inverted triangular figure is provided, and moving image similarity, sound similarity, and text similarity are associated with each vertex.
  • the preference board corresponds to the preference input unit A201 shown in FIG.
  • the similarity of the moving image (video), the similarity of sound (audio), and the similarity of text are respectively determined based on the selected coordinate position. Determine the weight of. Accordingly, similar moving image data can be searched in consideration of a plurality of similarities.
  • the search unit 26 has a plurality of moving image data based on the weight specified by the preference board. To retrieve video data similar to the query image data. For example, when the center of the preference board is selected, each of the video signal similarity, the audio signal similarity, and the text similarity is evaluated equally, and similar moving image data is searched.
  • the similarity given by the classification unit 22 includes the video similarity d v calculated by the video signal similarity calculation unit 23, the audio similarity d s calculated by the audio signal similarity calculation unit 24, The similarity d b based on the base sound, the similarity d nb based on the non-bass sound, the similarity d r based on the rhythm, and the text similarity d t calculated by the text similarity calculation unit 25.
  • the final similarity D is calculated using the above similarities.
  • a preference board it is possible to freely set elements such as video and audio that are regarded as important by the user. Therefore, it is possible to search for a scene as desired by the user.
  • the preference board has, for example, an inverted triangular shape as shown in FIG.
  • the weights are set so that the respective weights become maximum at the three corners of the board.
  • the final similarity D is calculated from the linear sum of the obtained weights.
  • Weight calculated here is the weight w v for similarity d v video, weights w a relative similarity d s audio, the weight w t for similarity d t text calculation.
  • the final similarity D is calculated by the following (formula 7-1).
  • the similarity D is obtained by adding the P power of the similarity of the video signal, the P power of the similarity of the audio signal, and the P power of the text similarity to the P power.
  • the respective powers obtained by multiplying each similarity by P are multiplied by the respective weights.
  • a specific formula for calculating the similarity D expressed in (Formula 7-1) will be described as follows.
  • FIG. 50 an example of a screen expressing the similarity D using (Equation 7-2) will be described.
  • the thumbnails of the scenes of the moving image data having the same similarity D are arranged in either the thick line part or the thick line broken line part in FIG.
  • a thumbnail of the query scene is displayed at the center of the coordinates, and a thumbnail of each scene having the same similarity D is displayed on the surface of the regular octahedron centered on the thumbnail of the query scene.
  • the description here is expressed based on a three-dimensional space, but when displayed on a display screen, it is converted into a two-dimensional space and expressed.
  • the display unit 29 calculates an arrangement position for visualization with respect to the plurality of scenes according to the following (Equation 7-4). Furthermore, each scene is arranged on the three-dimensional space based on the perspective transformation from the determined arrangement position.
  • the calculation formula in the above (Formula 7-4) is an example, and the coordinates may be determined by another calculation formula.
  • FIG. 51 an example of a screen expressing the similarity D using (Equation 7-3) will be described.
  • the thumbnails of the scenes of the moving image data having the same similarity D are arranged in either the thick line part or the thick line broken line part in FIG.
  • a thumbnail of the query scene is displayed at the center of the coordinates, and a thumbnail of each scene having the same similarity D is displayed on the surface of the sphere centered on the thumbnail of the query scene.
  • the description here is expressed based on a three-dimensional space, but when displayed on a display screen, it is converted into a two-dimensional space and expressed.
  • thumbnails of scenes of moving image data having the same degree of similarity D are arranged in either the thick line part or the thick line broken line part in FIG.
  • a thumbnail of the query scene is displayed at the center of the coordinates, and a thumbnail of each scene having the same similarity D is displayed on the surface of the cube centering on the thumbnail of the query scene.
  • the description here is expressed based on a three-dimensional space, but when displayed on a display screen, it is converted into a two-dimensional space and expressed.
  • the coordinates determined for each of the plurality of scene data D102 and D103 in which the similarity D between the query scene data D101 and the query scene data D101 falls within a predetermined threshold will be described.
  • r 1 is calculated from (Expression 7-2), and the thumbnail of the similar scene data D101 is displayed at the coordinates (x 1 , y 1 ).
  • r 2 is calculated from (Equation 7-2), and the thumbnail of the similar scene data D102 is displayed at the coordinates (x 2 , y 2 ). Is done.
  • the similarity d s of audio using the membership probability for said audio related similarity d s, d b, d nb , d r and audio class is calculated by any of the techniques shown below.
  • Method 1 the similarity d s is adaptively set by the following equation using the probability of belonging to the audio class.
  • w s , w b , w nb , and w r all represent weight coefficients of [0, 1]
  • Pl m and Pl s belong to the audio class related to the audio audio class relating to the probability of belonging to the audio class and sound, respectively. Represents the probability of belonging.
  • Method 2 the probability of belonging to the audio class is directly used for calculating the similarity d s .
  • the similarity d s by the method 2 is calculated by the following equation. By using the above equation, it is possible to set the similarity of sound in consideration of these even in a scene where sound and music are mixed.
  • the classification result further weighted by the classification parameter is changed by changing the coordinates displayed on the display device.
  • a coordinate having a high rhythm-based similarity indicates a scene with a high rhythm similarity and a low similarity based on a base sound or other musical instrument.
  • the similarity between videos is calculated using the audio signal and the video signal which are the components of the video, and the classification result is 3 It can be visualized on a dimensional space.
  • three similarities are calculated for a video based on music, similarity based on both audio and visual signals, and text based similarity.
  • a user interface that can understand the similarity of images according to the distance of the space by arranging the images in a three-dimensional space based on the similarity between the images.
  • the three-dimensional space axis is set to three coordinates obtained by 3D DTW, and a search / classification algorithm focused on music information is used.
  • the similarity based on the bass sound, the similarity based on another musical instrument, and the similarity based on rhythm are used.
  • the user can subjectively evaluate which part of video and music is similar in the three-dimensional space.
  • the moving image database 11 stores moving image data including a query scene and a plurality of moving image data of about 10 minutes including a scene whose text is similar to the query scene.
  • moving image data including a scene similar to the query scene is set as the moving image data to be searched, and a simulation is performed as to whether a scene similar to the query scene can be searched from a plurality of scenes included in the moving image data.
  • FIG. 54 to 58 show simulation results by the classification unit 22 and the search unit 26.
  • FIG. FIG. 54 shows moving image data of a query scene.
  • frame image data is displayed at predetermined time intervals for query scene moving image data.
  • the query scene shown in FIG. 54 is broadcast on the A channel on August 1, 2008.
  • the text similarity calculation unit 25 outputs “general contractor, grandfather, opinion, completion, reinforcing bar, reply, August, high rise, shortage, condominium” as the detection word characterizing the query scene. To do.
  • the text similarity calculation unit 25 outputs “building, discovery, apartment, construction, shortage, house, part, abortion, floor, class” as the detection word characterizing this moving image data. .
  • the text similarity calculation unit 25 calculates the distance as “0.632959” based on the similarity between the moving image data and the query data illustrated in FIG. 55. Here, “distance” is more similar to “0”.
  • the moving image data shown in FIG. 56 was broadcasted on the B channel on August 2, 2008.
  • the text similarity calculation unit 25 outputs “apartment, description, real estate, reinforcing bar, search, purchase, people, discovery, construction, charge” as a detection word characterizing the moving image data.
  • the text similarity calculation unit 25 calculates the distance as “0.7554549” based on the similarity between the moving image data and the query data illustrated in FIG. 56.
  • the moving image data shown in FIG. 57 was broadcast on A channel on August 4, 2008.
  • the text similarity calculating unit 25 outputs “condominium, purchase, explanation, recognition, guidance, hereinafter, F1, number of items, love, flooding” as a detection word characterizing the moving image data.
  • the text similarity calculation unit 25 calculates the distance as “0.918386” based on the similarity between the moving image data and the query data shown in FIG.
  • the moving image data shown in FIG. 58 was broadcast on August 2, 2008 on the A channel. 58, the text similarity calculation unit 25 outputs “joint, safety, fine, influence, inspection, road, power supply, concrete, Kurimoto, structure” as a detection word characterizing the video data. . The text similarity calculation unit 25 calculates the distance as “0.937752” based on the similarity between the moving image data and the query data shown in FIG.
  • the text similarity calculation unit 25 outputs the scene shown in FIG. 55 as the scene whose text is most similar to the query scene shown in FIG. Further, the text similarity calculation unit 25 converts the scene shown in FIG. 56 as the second similar scene, the scene shown in FIG. 57 as the third similar scene, and the scene shown in FIG. 58 as the fourth similar scene. Respectively.
  • the scenes shown in FIGS. 54 to 58 are scenes of the same theme, and it can be understood that scenes having similar themes can be searched even when the broadcast date and the broadcast channel are different.
  • the moving image search apparatus it is possible to search for an image with similar text with high accuracy using the video signal of the moving image data. This makes it possible to easily search for news and the like dealing with the same theme even in programs with different broadcast dates and broadcast channels.
  • video is arranged in a three-dimensional space based on the similarity between videos, and the video is searched according to the distance of the space. It can be confirmed that the interface can understand the similarity.
  • a preference input unit A201 for modeling individual preferences is prepared, it is possible to search for a similar image that reflects user preferences.
  • a user's operation history with respect to the preference input unit A201 is accumulated and stored, and by introducing a system that learns from the obtained operation history, it is possible to search for a video that more suits the user's personal preference.
  • the MFCC is calculated and the speech recognition is performed on the acoustic signal in the video, and the morphological analysis and the TF-IDF are used for the recognition result.
  • the MFCC is calculated and the speech recognition is performed on the acoustic signal in the video, and the morphological analysis and the TF-IDF are used for the recognition result.
  • the video search device when searching for a video, only text information extracted from the video is simply used to compensate for the vulnerability of the built-in current voice recognition.
  • the moving image signal and the sound signal together, the video desired by the user can be searched for the query video even when the accuracy of extracting text information by voice recognition is lowered.
  • the user can reach the desired video by setting weights for the three elements “sound”, “picture”, and “text” through the preference input unit A201 and repeating the search.
  • a video desired by the user can be obtained by such an associative search.
  • the moving picture search apparatus it is possible to extract the text information included in the video, so that using the extracted text information also allows hyperlinks with content on the Internet. It becomes possible.
  • the moving image search device according to the embodiment of the present invention, the same object focused on improving the accuracy of extraction of a face region by applying it to a moving image of a face region detector from an existing still image and the similarity of images. By extracting shots and scenes in which images are captured, “automatic detection of a face area” from a video, “automatic metadata addition” for a video, and the like can be performed.
  • the present invention has been described according to the best mode for carrying out the invention. However, it should not be understood that the description and drawings constituting a part of this disclosure limit the present invention. From this disclosure, various alternative embodiments, examples, and operational techniques will be apparent to those skilled in the art.
  • the video search device described in the best mode of the present invention may be configured on one piece of hardware as shown in FIG. 1, or on a plurality of pieces of hardware according to the functions and the number of processes. May be configured. Moreover, you may implement

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 動画データが記憶された動画データベース11と、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部21と、シーン分割部21によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度データ14を生成するテキスト類似度算出部25を備える。

Description

動画検索装置および動画検索プログラム
 本発明は、複数の動画データから、クエリ動画データに類似するシーンを検索する動画検索装置および動画検索プログラムに関する。
 近年の記憶媒体の大容量化やインターネットによる映像配信サービスの普及に伴い、ユーザは、大量の映像を入手可能となった。しかしながら、ユーザが特定の映像を明示せずに、所望の映像を入手することは一般に困難である。これは、膨大なデータベースにおける映像の入手が、主に映像名や製作元等のキーワードを用いた検索に依存していることに起因する。このため、キーワードによる映像検索だけでなく、映像の構成に注目した検索や同一ジャンルの映像の検索等、映像の内容に基づく様々な検索技術の実現が期待されている。そこで、映像や楽曲間の類似度に着眼した手法が提案されている(例えば、特許文献1および特許文献2参照)。
 特許文献1に記載の方法では、各動画データに、複数の単純図形との類似率を求めて記録した被検索用単純図形類似率情報が関連づけられている。一方、画像検索時に、検索画像について複数の単純図形との類似率を求めて記録した検索用類似率情報を作成する。被検索用単純図形類似率情報と、検索用類似率情報とを照合し、複数の単純図形ごとの類似率を集計し平均した類似率が、予め設定した規定類似率以上の場合、その動画データを類似動画として検索する。また、特許文献2に記載の方法では、映像データにおける類似映像区間とそれ以外を区別する類似映像区間情報を生成する。このとき、特許文献2に記載の方法では、ショットの画像の特徴量に基づいて類似パターンに分類する。
 一方、感性に基づく単語をメタデータとして映像・楽曲に付加し、単語間の関係に基づいて映像・楽曲の類似度を算出する方法もある(非特許文献1および非特許文献2参照)。
 また、映像データや音声データを含むマルチメディアデータについて、意味的に類似するマルチメディアデータを検索する方法もある(特許文献3参照。)。特許文献3に記載の方法では、マルチメディアデータに関連づけられた字幕や台本等のテキストデータ、音声データを変換したテキストデータ等を話題の単位で分割して、検索条件として入力されたテキストデータと話題の単位に分割されたテキストデータとを比較して、互いの意味的な類似度を判定する。
特開2007-58258号公報 特開2007-58258号公報 特開2002-312370号公報
L. Lu, D. Liu and H. J. Zhang, "Automatic Mood Detection and Tracking of Music Audio Signals," IEEE Trans. Audio, Speech and Language Proceeding, vol. 14, no. 1, pp. 5-18, 2006. T. Li and M. Ogihara, "Toward Intelligent Music Information Retrieval, " IEEE Trans. Multimedia, Vol. 8, No. 3, pp. 564-574, 2006.
 しかしながら、上記の特許文献1および特許文献2に記載の方法においては、画像の特徴のみに基づいた分類方法である。従って、同様の画像を含むシーンであっても、その画像の有する感性を把握して類似するシーンを取得することは困難である。
 また、非特許文献1および非特許文献2に記載の方法では、画像のもつ感性を把握して類似するシーンを検索することはできるが、予め各シーンについてメタデータを付与しなければならない。従って、昨今のデータベースの大容量化に伴い、多量の動画データを分類しなければならない場合には、対応することが困難である。
 また、特許文献3に記載の方法では、音声データを変換したテキストデータと、検索条件とを比較して類似度を検索しているので、シーン間のテキストの類似度としては低い場合が考えられる。また、テキストデータを話題の単位ごとに分割するので、分割の精度が低くなってしまう場合が考えられる。
 従って本発明の目的は、動画データのクエリシーンに類似するシーンを検索する動画検索装置および動画検索プログラムを提供することである。
 上記課題を解決するために、本発明の第1の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置に関する。即ち本発明の第1の特徴に係る動画検索装置は、クエリ動画データを含む動画データが記憶された動画データベースと、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出部を備える。
 また、テキスト類似度算出部は、シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のメル周波数ケプストラム係数を算出し、算出したメル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、テキストデータを形態素解析して名詞を抽出し、抽出された名詞の頻度に基づいて、シーンの特徴となる検出単語を出力してテキストの類似度を算出しても良い。
 シーン分割部によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部を更に備えても良い。
 シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部を更に備えても良い。
 また、シーン分割部によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、シーン分割部によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、ビデオ信号類似度算出部によって検索された各シーンのビデオ信号の類似度、オーディオ信号類似度算出部によって検索された各シーンのオーディオ信号の類似度およびテキスト類似度算出部によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、クエリ動画データとの類似度を算出する類似度算出部と、類似度算出部で算出されたクエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索部と、シーン検索部によって検索された各シーンについて、類似度算出部で取得された類似度に対応する座標を算出して、表示装置に表示する表示部を更に備えても良い。
 シーン分割部は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。
 本発明の第2の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索プログラムに関する。即ち本発明の第3の特徴に係る動画検索プログラムは、コンピュータを、動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出手段として機能させる。
 また、テキスト類似度算出手段は、シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のメル周波数ケプストラム係数を算出し、算出したメル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、テキストデータを形態素解析して名詞を抽出し、抽出された名詞の頻度に基づいて、シーンの特徴となる検出単語を出力してテキストの類似度を算出しても良い。
 シーン分割手段によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段として更に機能させても良い。
 シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段として、更に機能させても良い。
 シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、ビデオ信号類似度算出手段によって検索された各シーンのビデオ信号の類似度、オーディオ信号類似度算出手段によって検索された各シーンのオーディオ信号の類似度およびテキスト類似度算出手段によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、クエリ動画データとの類似度を算出する類似度算出手段と、類似度算出手段で算出されたクエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索手段と、シーン検索手段によって検索された各シーンについて、類似度算出手段で取得された類似度に対応する座標を算出して、表示装置に表示する表示手段として、更に機能させても良い。
 シーン分割手段は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力しても良い。
 本発明によれば、動画データのクエリシーンに類似するシーンを検索する動画検索装置および動画検索プログラムを提供することができる。
図1は、本発明の最良の実施の形態に係る動画検索装置の機能ブロック図である。 図2は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、クエリ画像を表示した画面例ある。 図3は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、類似画像を表示した画面例である。 図4は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、類似画像の詳細情報を表示した画面例である。 図5は、本発明の最良の実施の形態に係る動画検索装置のハードウェア構成図である。 図6は、本発明の最良の実施の形態に係る動画検索装置による動画検索処理を説明する図である。 図7は、本発明の最良の実施の形態に係るシーン分割部によるシーン分割処理を説明するフローチャートである。 図8は、本発明の最良の実施の形態に係るビデオ信号類似度算出部によるビデオ信号類似度算出処理を説明するフローチャートである。 図9は、本発明の最良の実施の形態に係るオーディオ信号類似度算出部によるオーディオ信号類似度算出処理を説明するフローチャートである。 図10は、本発明の最良の実施の形態に係るベース音に基づく類似度算出処理を説明するフローチャートである。 図11は、本発明の最良の実施の形態に係るベース音以外の他楽器に基づく類似度算出処理を説明するフローチャートである。 図12は、本発明の最良の実施の形態に係るリズムに基づく類似度算出処理を説明するフローチャートである。 図13は、本発明の最良の実施の形態に係るテキスト類似度算出部によるテキスト類似度算出処理を説明するフローチャートである。 図14は、本発明の最良の実施の形態に係る検索処理を説明するフローチャートである。 図15は、本発明の最良の実施の形態に係る表示処理を説明するフローチャートである。 図16は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類を説明する図である。 図17は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類の際に参照される信号を説明するテーブルである。 図18は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップの特徴量を算出する処理を説明する図である。 図19は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップの特徴量の主成分を出力する処理を説明する図である。 図20は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類を詳細に説明する図である。 図21は、本発明の最良の実施の形態に係る動画検索装置において、χ2検定法による映像のショット分割処理を説明する図である。 図22は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ集合を生成する処理を説明する図である。 図23は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。(その1) 図24は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。(その2) 図25は、本発明の最良の実施の形態に係る動画検索装置において、各ショットに対するオーディオクラスへの帰属確率の算出処理、各ショットに対するファジィ推論処理およびファジィ推論値を用いたシーン分割処理を説明する図である。 図26は、本発明の最良の実施の形態に係る動画検索装置において、ビジュアル信号特徴量算出処理を説明するフローチャートである。 図27は、本発明の最良の実施の形態に係る動画検索装置において、オーディオ信号特徴量算出処理を説明するフローチャートである。 図28は、本発明の最良の実施の形態に係る動画検索装置において、3次元DTWの格子点を説明する図である。 図29は、本発明の最良の実施の形態に係る動画検索装置において、局所パスを説明する図である。 図30は、本発明の最良の実施の形態に係る動画検索装置において、シーン間の類似度算出処理を説明するフローチャートである。 図31は、一般的なDTWによるパターン間の類似度の算出を説明する図である。 図32は、一般的なDTWによる経路長の算出を説明する図である。 図33は、本発明の最良の実施の形態に係る動画検索装置において、ベース音に基づく類似度算出理を説明する図である。 図34は、本発明の最良の実施の形態に係る動画検索装置において、ベース音に基づく類似度算出処理を説明するフローチャートである。 図35は、各音名が有する周波数を説明するテーブルである。 図36は、本発明の最良の実施の形態に係る動画検索装置において、音高の推定処理を説明する図である。 図37は、本発明の最良の実施の形態に係る動画検索装置において、ベース音以外の楽器に基づく類似度算出理を説明する図である。 図38は、本発明の最良の実施の形態に係る動画検索装置において、他楽器に基づく類似度算出処理を説明するフローチャートである。 図39は、本発明の最良の実施の形態に係る動画検索装置において、2分割フィルタバンクによる低周波・高周波成分の算出処理を説明する図である。 図40は、本発明の最良の実施の形態に係る動画検索装置において、2分割フィルタバンクによって算出された低周波・高周波成分を説明する図である。 図41は、本発明の最良の実施の形態に係る動画検索装置において、全波整流を施す前の信号と、全波整流を施した後の信号と、を説明する図である。 図42は、本発明の最良の実施の形態に係る動画検索装置において、低域通過フィルタによって処理される信号を説明する図である。 図43は、本発明の最良の実施の形態に係る動画検索装置において、ダウンサンプリングを説明する図である。 図44は、本発明の最良の実施の形態に係る動画検索装置において、平均値除去処理を説明する図である。 図45は、Sin波形の自己相関を説明する図である。 図46は、本発明の最良の実施の形態に係る動画検索装置において、自己相関関数の算出処理およびDTWを用いたリズム関数の類似度の算出処理を説明するフローチャートである。 図47は、本発明の最良の実施の形態に係る動画検索装置において、連続音声認識の基本原理を説明する図である。 図48は、本発明の最良の実施の形態に係る動画検索装置において、透視変換を説明する図である。 図49は、本発明の実施の形態に係る動画検索装置の嗜好入力部のインタフェースを説明する図である。 図50は、本発明の実施の形態に係る動画検索装置の検索部において、市街地距離を利用して検索結果を表示した画面例を説明する図である。 図51は、本発明の実施の形態に係る動画検索装置の検索部において、ユークリッド距離を利用して検索結果を表示した画面例を説明する図である。 図52は、本発明の実施の形態に係る動画検索装置の検索部において、チェス盤距離を利用して検索結果を表示した画面例を説明する図である。 図53は、本発明の実施の形態に係る動画検索装置の表示部において、各動画データを表示する座標を説明する図である。 図54は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、動画検索装置に入力されるクエリ画像データを説明する図である。 図55は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。(その1) 図56は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。(その2) 図57は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。(その3) 図58は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。(その4)
 次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。
 本発明の最良の実施の形態において、「ショット」とは、カメラ切り換えから、次のカメラ切り換えまでの間の連続する画像フレーム列である。CGアニメーションや合成映像についても、カメラを撮影環境の設定に置き換えて、同様の意味で使用される。ここで、ショット間の不連続点を「カット点」と呼ぶ。「シーン」とは、意味を持つ連続したショットの集まりである。「クリップ」とは、ビデオ信号を、所定のクリップ長で分割した信号である。このクリップには、複数のフレームが含まれることが好ましい。「フレーム」とは、動画像データを構成する静止画像データである。
(最良の実施の形態)
 図1に示す本発明の最良の実施の形態に係る動画検索装置1は、動画データのシーンから、クエリ動画データに類似するシーンを検索する。本発明の最良の実施の形態に係る動画検索装置1は、動画データベース11中に存在する動画データをシーンに分類して、各シーン間の類似度を算出する。更に本発明の最良の実施の形態に係る動画検索装置1は、いずれかのシーンがクエリ動画データとして選択されると、クエリ動画データとその他のシーンの類似度に基づいて、クエリ動画データに類似するシーンを検索する。
 より具体的には、本発明の最良の実施の形態において、メタデータを用いることなく、映像の構成要素である音響およびビジュアル信号の解析結果を用いて映像間の類似度を算出し、類似映像を検索し、または分類するシステムを説明する。また、それらの検索または分類結果を3次元の空間上に可視化するシステムを説明する。本発明の最良の実施の形態では映像に対して、オーディオ信号およびビジュアル信号を含むビデオ信号に基づいた映像情報の類似度の算出と、オーディオ信号に基づいた音楽情報の類似度の算出と、オーディオ信号に含まれる音声信号から変換されたテキストの類似度の算出と、の3つの類似度算出機能を持つ。さらに、この機能を用いることで、クエリ映像を与えた場合に自動で類似映像の検索を可能とする。また、クエリ映像が存在しない場合、データベース中の映像を自動的に分類し、注目する映像に対して類似する映像をユーザに呈示することを可能とする。このとき、本発明の最良の実施の形態では、映像間の類似度に基づいて、3次元の空間上に映像を配置することで、空間の距離によって映像の類似性を理解することが可能なユーザインターフェースを実現している。
 図1に示す本発明の最良の実施の形態に係る動画検索装置1は、動画データベース11から複数の映像を読み込み、シーン分割部21が、全ての映像に対して、同一の内容を含む区間であるシーンを算出する。さらに、分類部22が、得られる全てのシーン間で類似度を算出し、検索部26がクエリ画像と類似度の高い動画像データを抽出する。表示部29が、類似したシーンを持つ映像同士が近くなるように3次元空間へ映像を配置する。尚、クエリの映像が与えられた場合は、これを中心に処理が行われる。
 ここで本発明の最良の実施の形態に係る動画検索装置1の分類部22の処理は、(1)「映像情報に注目した検索・分類」に基づくビデオ信号類似度算出部23と、(2)「音楽情報に注目した検索・分類」に基づくオーディオ信号類似度算出部24と、(3)「テキストに注目した検索・分類」に基づくテキスト類似度算出部25の3つに分岐する。それぞれの処理において異なるアルゴリズムを用いて類似度が算出される。
 本発明の最良の実施の形態において、動画検索装置1は、図2ないし図4に示す表示画面P101ないし表示画面P103を、表示装置に表示する。図2ないし図4は、クエリシーンに、テキストデータが類似するシーンを検索する場合の表示画面を示している。図2に示す表示画面P101は、クエリ画像表示部A101を備えている。動画検索装置1は、クエリ画像表示部A101に表示された動画に類似するシーンを、動画データベース11から検索して、表示画面P102を表示装置に表示する。
 図3に示す表示画面P102には、類似シーン表示部A102aおよびA102bを備えている。これらの類似シーン表示部A102aおよびA102bには、動画データベース11から検索された動画データのシーンであって、クエリ表示部A101に表示されたシーンに、テキストデータが類似するシーンが表示されている。図3に示す表示画面P102には、クエリシーンに類似する動画データのシーンを検索する際の指標を入力するための嗜好入力部A201を備える。嗜好入力部A201は、逆三角形の形状を有し、それぞれの頂点に、動画像の類似度、音の類似度およびテキストの類似度が関連づけられている。ユーザは、嗜好入力部A201の逆三角形の内部のいずれかを選択することにより、その選択された位置に応じて、動画像の類似度、音の類似度およびテキストの類似度のそれぞれの類似度の重みを決定することができる。
 図3に示す表示画面P102においては、クエリ動画データに類似する動画データのシーンを、映像間の類似度に基づいて、3次元の空間上に映像を配置し、空間の距離によって映像の類似性を理解することができる。ここで、3次元の空間上に配置する軸は、ビデオ信号に基づく類似度(動画像の類似度)、オーディオ信号に基づく類似度(音の類似度)およびテキストに基づく類似度(テキストの類似度)となる。
 図4に示す表示画面P103には、図3に示した類似シーンのうち、一つのシーンに着目して表示した画像データである。図4の表示画面P103の中心部には、図3に示す類似シーンの一つを表示した類似シーン表示部A103を有する。また、図4の表示画面P103には、この類似シーンに対応づけて、後述するテキスト類似度算出部25によって出力された検出単語を表示する検出単語表示部A104を有する。この検出単語は、このシーンを特徴づける名詞である。検出単語は、複数の名詞でも良いし一つの名詞でも良い。
(動画検索装置のハードウェア構成)
 図5に示すように、本発明の最良の実施の形態に係る動画検索装置1は、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103及び入出力インタフェース109が、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107及びリムーバブルディスク108が接続されている。
 中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102から動画検索装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラム及びデータを読み出してRAM103にロードするとともに、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。
 入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109及びバス110を介して中央処理制御装置101に送信される。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置101からバス110及び入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置であり、動画検索装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
 記憶装置107は半導体記憶装置や磁気ディスク装置であって、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
 本発明の最良の実施の形態に係る動画検索装置1の記憶装置107には、動画検索プログラムが記憶されるとともに、図1に示すように、動画データベース11、ビデオ信号類似度データ12、オーディオ信号類似度データ13およびテキスト類似度データ14が記憶される。又、動画検索プログラムが動画検索装置1の中央処理制御装置101に読み込まれ実行されることによって、シーン分割部21、分類部22、検索部26および表示部29が、動画検索装置1に実装される。
(動画検索処理)
 図6を参照して、本発明の最良の実施の形態に係る動画検索装置1による動画検索処理を説明する。
 まずステップS1においてシーン分割部21は、各動画データについて、各シーンに分割する。シーン分割部21は、例えば、分割されたシーン毎に、その先頭の時間を記録する。
 ステップS2ないしステップS4において分類部23は、各動画データの各シーンについて、各シーン間の類似度を算出する。分類部23は、ステップS2において、各シーンのビデオ信号の特徴量から、各シーン間のビデオ信号の類似度を算出する。分類部23は、ステップS3において、各シーンのオーディオ信号の特徴量から、各シーン間のオーディオ信号の類似度を算出する。分類部23は、ステップS4において、各シーンのテキストの特徴量から、各シーン間のテキストの類似度を算出する。
 各シーン間のビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度が算出されると、ステップS5において検索部26は、類似度Dを算出する算出式を決定する。類似度Dは、クエリ動画データと各シーンとの類似度である。類似度Dは、ステップS2ないしステップS4で算出された類似度、指定された条件に基づいて算出される。さらに検索部26は、各シーンについて算出式に従った類似度Dを算出する。
 指定された条件とは、類似する動画データを検索する際に、ユーザによって入力される検索条件である。具体的には、検索条件とは、動画データベース11の動画データから指定されたクエリ動画データ、ビデオ信号、オーディオ信号およびテキストのいずれのパラメータに基づいて類似度を検索するか、ビデオ信号、オーディオ信号およびテキストのうち複数のパラメータを指定する際は、指定したパラメータごとの重みである。
 類似度Dは、ユーザによって指定されたクエリ動画データと、他の動画データのシーンとのビデオ信号類似度、オーディオ信号類似度およびテキスト類似度から算出される。このとき、ユーザから指定された重みも考慮される。
 例えば、ユーザから、テキストのみが指定された場合、類似度Dは、テキストの類似度と同一である。このときビデオ信号とオーディオ信号の類似度の重みはゼロと評価され、類似度Dに影響を与えない。
 また、オーディオ信号の重み8で、テキストの重みが2と入力されると、類似度Dは、オーディオ信号の類似度とテキストの類似度から、それぞれの重みを考慮して評価される。このときビデオ信号の類似度の重みはゼロと評価され、類似度Dに影響を与えない。
 ビデオ信号、オーディオ信号およびテキストのそれぞれの重みが3と入力されると、類似度Dは、ビデオ信号、オーディオ信号およびテキストがそれぞれ均等に評価される。
 検索部26は、各動画データの各シーンについて類似度Dを算出する。具体的には検索部は、各動画データの各シーンについて、クエリ動画データとのビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度を抽出し、算出式から類似度Dを算出する。
 ステップS6において検索部26は、ステップS5で算出された各動画データの各シーンの類似度Dを参照し、クエリ動画データとの類似度Dが高いシーンを抽出する。ステップS6で抽出するシーンの数は、表示する表示画面の大きさ、解像度、見やすさ等によって任意に定められても良い。また、シーンの数に関係なく、類似度が所定の閾値内であるシーンが抽出されても良い。
 さらにステップS7において表示部29は、ステップS6によって抽出されたシーンのサムネイルを表示画面に表示する。表示部29は、ステップS7で抽出された各シーンについて、ステップS2ないしステップS4で算出された各類似度に対応した座標を算出する。表示部29は、例えば、各シーン間についてビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度に対応した3次元の座標を算出し、透視変換により2次元に変換して、表示画面における座標を算出する。
 ここで、本発明の最良の実施の形態においては、シーン間の類似度を予め検索し、ユーザが、各動画データの各シーンからクエリ動画データを選択する場合について説明する。例えば、動画データベース11に10の動画データのシーンが含まれている場合、第1のシーンと第2のシーン、第1のシーンと第3のシーン、第1のシーンと第4のシーン・・・・第8のシーンと第9のシーン、第8のシーンと第10のシーン、第9のシーンと第10のシーンと、合計45組のシーン間について、ビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度を算出する。
 他の実施の形態としては、先にクエリ動画データを決定し、そのクエリ動画データと、その他の各動画データの各シーンのシーン間について、ビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度を算出しても良い。
 つぎに、図1に示した各処理手段について詳述する。
(動画検索装置の機能ブロック)
 動画データベース11は、複数の動画データが記憶される。この動画データベース11に記憶される動画データは、本発明の最良の実施の形態に係る動画検索装置1によって分類される対象となる。動画データベース11に記憶される動画データは、オーディオ信号およびビジュアル信号を含むビデオ信号によって構成されている。
 シーン分割部21は、記憶装置107から動画データベース11を読み出して、動画データのビジュアル信号をショットに分割して、ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力する。より具体的には、シーン分割部21は、動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出する。さらにシーン分割部21は、動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出する。さらにシーン分割部21は、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。
 図7を参照して、シーン分割部21の処理の概要を説明する。まず、動画データベース11を読み出して、動画データベース11に記憶された各動画データについて、ステップS101ないしステップS110の処理を繰り返す。
 ステップS101においてシーン分割部21は、動画データベース11に記憶された動画データの一つについて、オーディオ信号を抽出して読み出し、ステップS102において、オーディオ信号をクリップに分割する。次に、ステップS102で分割された各クリップについて、ステップS103ないしステップS105の処理が繰り返される。
 ステップS103において、クリップの特徴量が算出され、ステップS104において、PCA(主成分分析)によってこの特徴量のパラメータが削減される。次に、ステップS104において削減された後の特徴量に基づいて、MGDに基づいて、クリップのオーディオクラスの帰属確率が算出される。ここでオーディオクラスは、無音、音声、音楽等のオーディオ信号の種類を表すクラスである。
 ステップS103ないしステップS105において、オーディオ信号の各クリップについて、オーディオクラスの帰属確率が算出されると、ステップS106においてシーン分割部21は、ステップS101で取得したオーディオ信号に対応するビジュアル信号を抽出して読み出し、ステップS107において、カイ二乗検定法に基づいて、映像データをショットに分割する。このカイ二乗検定法においては、音声信号ではなく、ビジュアル信号の色ヒストグラムが用いられる。ステップS107において、動画データが複数のショットに分割されると、各ショットについて、ステップS108およびステップS109の処理が繰り返される。
 ステップS108において、各ショットに対するオーディオクラスへの帰属確率が算出される。このとき、ショットに対応するクリップについて、ステップS105で算出されたオーディオクラスへの帰属確率が取得される。各クリップのオーディオクラスへの帰属確率の平均値が、ショットに対するオーディオクラスへの帰属確率として算出される。さらにステップS109において、各ショットに対するファジィ推論により、各ショットクラスの出力変数およびメンバシップ関数の値が算出される。
 ステップS107で分割された全てのショットについて、ステップS108およびステップS109の処理が実行されると、ステップS110においてシーン分割部21は、ファジィ推論による各ショットクラスの出力変数およびメンバシップ関数の値に基づいて、各ショットを連結して、動画データをシーンに分割する。
 分類部22は、ビデオ信号類似度算出部23、オーディオ信号類似度算出部24およびテキスト類似度算出部25を備えている。
 分類部22は、動画データベース11に記憶された各動画データの各シーンについて、ビデオ信号の特徴量、オーディオ信号の特徴量およびテキストの特徴量を算出する。
 ビデオ信号類似度算出部23は、各シーン間について、ビデオ信号の類似度を算出して、ビデオ信号類似度データ12を生成する。オーディオ信号類似度算出部23は、各シーン間について、オーディオ信号の類似度を算出して、オーディオ信号類似度データ13を生成する。テキスト類似度算出部25は、各シーン間について、テキストの類似度を算出して、テキスト類似度データ14を生成する。ビデオ信号類似度算出部23、オーディオ信号類似度算出部24およびテキスト類似度算出部25の各処理について、下記に詳述する。
 ビデオ信号類似度算出部23は、シーン分割部21によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データ12を生成する。ここでシーン間の類似度は、あるシーンと他のシーンとのビジュアル信号の類似度である。例えば、動画データベース11にn個のシーンが格納されているとすると、第1のシーンについて、第2のシーンとのビジュアル信号の類似度、第3のシーンとのビジュアル信号の類似度・・・第nのシーンとのビジュアル信号の類似度が算出される。より具体的には、ビデオ信号類似度算出部23は、シーン分割部21によって分割されたそれぞれのシーンについて、シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、ビジュアル信号の特徴量を算出する。さらにビデオ信号類似度算出部23は、クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、オーディオ信号の特徴量を算出する。さらにビデオ信号類似度算出部23は、クリップ単位のビジュアル信号とオーディオ信号の特徴量に基づいて、シーン間の類似度を算出して、ビデオ信号類似度データ12として、記憶装置107に記憶する。
 図8を参照して、ビデオ信号類似度算出部23の処理の概要を説明する。
 シーン分割部21によって分割された各動画データの各シーンについて、ステップS201ないしステップS203の処理が繰り返される。まず、ステップS201において、シーンに対応するビデオ信号がクリップに分割される。つぎに、ステップS201で分割された各クリップについて、ステップS202において、ビジュアル信号の特徴量が算出され、ステップS203において、オーディオ信号の特徴量が算出される。
 各動画データの各シーンについて、ビジュアル信号の特徴量およびオーディオ信号の特徴量が算出されると、ステップS204において、シーン間の類似度が算出される。さらにステップS205においてビデオ信号類似度算出部23は、ステップS204においてシーンの類似度を、シーン間の映像情報の類似度であるビデオ信号類似度データ12として、記憶装置107に記憶する。
 オーディオ信号類似度算出部24は、シーン分割部21によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データ13を生成する。ここで類似度は、あるシーンと他のシーンとの、ベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度である。例えば、動画データベース11にn個のシーンが格納されているとすると、第1のシーンについて、第2のシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度、第3のシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度・・・第nのシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度が算出される。より具体的には、オーディオ信号類似度算出部24は、ベース音に基づく類似度を算出する際、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の2シーンについて、ベース音に基づく類似度を算出する。また、オーディオ信号類似度算出部24は、ベース音を除く楽器に基づく類似度を算出する際、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の2シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出する。また、オーディオ信号類似度算出部24は、リズムに基づく類似度を算出する際、2分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の2シーンについてリズムに基づく類似度を算出する。
 図9を参照して、オーディオ信号類似度算出部24の処理の概要を説明する。
 シーン分割部21によって全ての動画データから分割され、得られる全てのシーンのうち、任意の2つのシーンについて、ステップS301ないしステップS303の処理が繰り返される。まず、ステップS301において、シーンに対応するオーディオ信号のベース音に基づく類似度が算出される。つぎに、ステップS302において、オーディオ信号の、ベース音以外の楽器に基づく類似度が算出される。さらに、ステップS303において、オーディオ信号のリズムに基づく類似度が算出される。
 つぎに、ステップS304においてオーディオ信号類似度算出部24は、ステップS301ないしステップS303において算出したベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度を、シーン間の音響情報の類似度であるオーディオ信号類似度データ13として、記憶装置107に記憶する。
 次に、図10を参照して、図9のステップS301におけるベース音に基づく類似度算出処理の概要を説明する。まず、ステップS311において、所定の帯域通過フィルタを介して、ベース音が抽出される。ここで所定の帯域とは、ベース音に対応する帯域であって、例えば40Hzないし250Hzである。
 つぎに、ステップS312において、時間および周波数に注目して、重み付きパワースペクトルが算出され、ステップS313において、重み付きパワースペクトルを用いてベースの音高が推定される。さらに、ステップS314において、DTWを用いて、ベース音高の類似度が算出される。
 図11を参照して、図9のステップS302におけるベース以外の楽器に基づく類似度算出処理の概要を説明する。まず、ステップS321において、音名が示す周波数のエネルギーが算出される。ここでは、ベース音より高く、かつ音名を持つ周波数のエネルギーについて、各音名が示す周波数のエネルギーが算出される。
 つぎに、ステップS322において、各音名が示す周波数のエネルギーについて、全周波数域に対するエネルギーの割合が算出される。さらにステップS323において、DTWを用いて、音名のエネルギー割合の類似度が算出される。
 図12を参照して、図9のステップS303におけるリズムに基づく類似度算出処理の概要を説明する。まず、ステップS331において、2分割フィルタバンクによって、所定回数の分割を繰り返すことにより、低周波成分および高周波成分が算出される。これにより、複数種類の楽器音によるリズムを推定することができる。
 さらに、ステップS332ないしステップS335の処理によって、包絡線を検波して、各信号の概形が取得される。具体的には、ステップS332において、ステップS331で取得した波形について全波整流が施され、ステップS333において、低域通過フィルタが施される。さらにステップS334において、ダウンサンプリングされ、ステップS335において、平均値が除去される。
 包絡線の検波が終了すると、ステップS336において、自己相関関数が算出され、ステップS337において、DTWを用いて、リズム関数の類似度が算出される。
 テキスト類似度算出部25は、シーン分割部21によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度デタ14を生成する。より具体的には、テキスト類似度算出部25は、シーン分割部21によって分割されたそれぞれのシーンについて、オーディオ信号のメル周波数ケプストラム係数を算出し、算出したメル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、テキストデータを形態素解析して名詞を抽出し、抽出された名詞の頻度に基づいて、シーンの特徴となる検出単語を出力してテキストの類似度を算出する。
 図13を参照して、テキスト類似度算出部25の処理の概要を説明する。
 シーン分割部21によって全ての動画データから分割され、得られる全てのシーンのうち、任意の2つのシーンについて、ステップS401ないしステップS403の処理が繰り返される。まず、ステップS401において、シーンにおけるオーディオ信号が分割される。このときテキスト類似度算出部25は、無音区間を検出して、無音区間毎にオーディオ信号を分割する。これによりテキスト類似度算出部25は、オーディオ信号から無音区間を除いた信号を生成することができる。次に、ステップS402においてテキスト類似度算出部25は、ステップS401で生成した無音区間以外のオーディオ信号について、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient)を算出し、ステップS403において、音声認識し、オーディオ信号をテキストデータに変換する。ステップS404においてテキスト類似度算出部25は、ステップS403で生成されたテキストデータから名詞を抽出する。
 つぎに、ステップS405において、テキスト類似度算出部25は、処理対象のシーンの各区間についてステップS404で抽出された名詞について、TF-IDFを算出する。さらにテキスト類似度算出部25は、ステップS406において、シーン間のテキストに基づいた類似度を算出する。ステップS407において、シーン間のテキストに基づいた類似度が、テキスト類似度データ14として、記憶装置107に記憶される。
 検索部26は、類似度算出部27およびシーン検索部28を備える。
 類似度算出部27は、ビデオ信号類似度算出部23によって検索された各シーンのビデオ信号の類似度、オーディオ信号類似度算出部24によって検索された各シーンのオーディオ信号の類似度およびテキスト類似度算出部25によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、クエリ動画データとの類似度Dを算出する。
 類似度Dは、各シーンについて、ビデオ信号、オーディオ信号およびテキストの各類似度から、ユーザによって指定された検索条件に基づいて算出される。ここで検索条件とは、ビデオ信号、オーディオ信号およびテキストのうち、いずれのパラメータを基準に検索するか、また複数のパラメータが指定された場合の各パラメータの重みである。類似度算出部27は、指定された検索条件に従って類似度を算出するための類似度算出式を生成し、その類似度算出式に各類似度を代入して、類似度Dを算出する。
 シーン検索部28は、類似度算出部27によって算出された各シーンの類似度Dを参照して、類似度の高いシーンを抽出する。ここで、類似度Dが高いものから所定の数のシーンが抽出されても良いし、類似度Dが所定の閾値以上のシーンが抽出されても良い。
 図14を参照して、検索部26の処理を説明する。
 まずステップS501において、検索条件が取得される。検索条件は、ビデオ信号、オーディオ信号およびテキストのいずれか一つ以上のパラメータと、各パラメータの重みであって、例えばユーザによって入力される。さらにステップS502において類似度算出部27は、ステップS501で入力された検索条件から、類似度Dを算出するための類似度算出式を生成して出力する。類似度算出式は、ビデオ信号、オーディオ信号およびテキストの各類似度と、各パラメータに対応する重みで表現される。
 ステップS503ないしステップS506において、各シーンについて類似度Dが算出される。具体的には、ステップS503において類似度算出部27は、記憶装置107からビデオ信号類似度データ12を読み出し、所定のシーンのビデオ信号類似度を抽出する。ステップS504において類似度算出部27は、記憶装置107からオーディオ信号類似度データ13を読み出し、このシーンのオーディオ信号類似度を抽出する。ステップS505において類似度算出部27は、記憶装置107からテキスト類似度データ12を読み出し、このシーンのテキスト類似度を抽出する。ステップS506において類似度算出部27は、類似度算出式にステップS503ないしステップS505で抽出した各類似度を代入して、このシーンの類似度Dを算出する。
 各シーンについて類似度Dが算出されると、ステップS507においてシーン検索部28は、類似度Dの高いシーンを抽出する。
 表示部29は、シーン検索部28によって検索された各シーンについて、類似度算出部27で取得された類似度に対応する座標を算出して、表示装置に表示する。表示部29は、分類部22で算出されたビデオ信号類似度、オーディオ信号類似度およびテキスト類似度のうち、検索条件で指定されたパラメータの類似度に基づいて座標を算出する。例えば、検索条件で3つのパラメータ全てが指定された場合、ビデオ信号類似度、オーディオ信号類似度およびテキスト類似度は、三次元空間の各座標に対応する。表示部29は、各シーンについて座標を三次元座標を算出して、表示画面上の二次元座標に変換する。表示部29は、各シーンのサムネイルを、変換された二次元座標上に表示する。
 図15を参照して、表示部29の処理を説明する。
 まずステップS601において表示部29は、シーン検索部28によって抽出されたシーンについて、三次元空間における座標を算出する。この座標は例えば、そのシーンのビデオ信号類似度、オーディオ信号類似度およびテキスト類似度に対応する。さらに、各パラメータの重みが考慮されて、座標が算出されても良い。
 つぎにステップS602において、ステップS601において算出された三次元空間における座標は、透視変換され、二次元空間における座標に変換される。ステップS602において変換された二次元空間における座標に基づいて、ステップS603において、そのシーンのサムネイルが表示画面に表示される。
 シーン検索部29によって検索された各シーンについて、ステップS601ないしステップS603の処理が繰り返され、各シーンのサムネイルが表示画面に表示される。
 以下、図1に示す各ブロックについて詳述する。
(シーン分割部)
 次に、図1に示すシーン分割部21の処理を説明する。
 シーン分割部21は、データベース中に存在する映像間で類似度を算出するために、映像信号をシーン単位に分割する。本発明の最良の実施の形態では、動画データベース11から得られる映像信号のオーディオ信号と動画像フレームの両方を用いることで、シーンの算出を可能とする。
 シーン分割部21は、まずオーディオ信号をクリップと呼ばれる小区間毎に分け、各々に対して特徴量を算出し、さらにPCA(主成分分析)による特徴量の削減する。次にシーン分割部21は、オーディオ信号の種類を表すオーディオクラス(無音、音声、音楽等)を準備し、各クリップがそれらのクラスに属する確率、つまり帰属確率をMGDにより求める。さらにシーン分割部21は、本発明の最良の実施の形態では、映像中のビジュアル信号(フレーム)に対し、χ2検定を用いることで、1台のカメラで連続的に撮影された区間であるショットへ分割する。またシーン分割部21は、各ショットに含まれるオーディオ信号のクリップについて、オーディオクラスへの帰属確率の平均を求めることで、ショットとしてのオーディオクラスへの帰属確率が得られる。本発明の最良の実施の形態では、得られる帰属確率から各ショットに対してファジィ推論を行うことで、シーン分割部21は、ショットの種類を表すショットクラスのファジィ推論値を算出する。最後にシーン分割部21は、隣接する全てのショット間において、ファジィ推論値の差分を求め、その値が小さな連続区間を1つのシーンとして求める。
 このように、処理対象であるショットが各ショットクラスに属する度合い(ファジィ推論値)が得られる。オーディオ信号の種類によっては、ユーザの主観評価により、ショットの分類結果が異なる可能性がある。例えば、音楽の付加された音声において、背景に存在する音楽が非常に小さな音量である場合、そのオーディオ信号を「音楽付きの音声」に分類すべきか、それとも主となる「音声」に分類すべきかは、ユーザの要求によって異なる。そこで、ショットに対して、全てのショットクラスタのファジィ推論値を持たせ、最終的にその差分を求めることで、ユーザの主観評価を考慮したシーンの分割が可能となる。
 ここで、本発明の最良の実施の形態に係るシーン分割21では、処理対象信号をオーディオクラスに分類する。ここで、オーディオ信号には音楽や音声などの単一のオーディオクラスから構成されるものの他に、背景に音楽が存在する環境下での音声(雑音付き音声)や、背景に雑音が存在する環境下での音声(雑音付き音声)等、複数の種類のオーディオクラスから構成されるものも数多く存在する。このようなオーディオ信号では、どのオーディオクラスに分類されるかの境界を定めることが困難である。そこで、本発明の最良の実施の形態ではファジィ推論による推論値を用いることにより、処理対象信号が各オーディオクラスに属する度合いを高精度に算出し、分類する。
 本発明の最良の実施の形態に係るシーン分割部21について、具体的なアルゴリズムを説明する。
 本発明の最良の実施の形態では、まずPCAとMGDを用いて、オーディオ信号が以下に定義する4種類のオーディオクラスに属する程度(以降、帰属確率)を算出する。
・ 無音(silence: Si)
・ 音声(speech: Sp)
・ 音楽(music: Mu)
・ 雑音(noise: No)
 各オーディオクラスへの帰属確率は、図16に示す「CLS#1」から「CLS#3」の3つの分類処理を施し、それらの分類結果を用いて算出される。ここで、CLS#1からCLS#3までの各分類処理は、全て同一の手順であり、処理対象信号および2種類の参照信号に対し、「特徴量の算出」、「PCAの適用」、及び「MGDの算出」の3つを処理する。ただし、図17に示すように、参照信号は分類処理の目的に応じてSi、Sp、Mu、Noのいずれか(あるいは複数)のオーディオ信号を含む。以下、各処理について説明する。
 まず、オーディオ信号クリップの特徴量算出処理を説明する。この処理は、図7のステップS103に相当する。
 シーン分割部21は、処理対象であるオーディオ信号、および図17に示した2種類の参照信号から、以下に示すオーディオ信号のフレーム単位(フレーム長:W)の特徴量、およびクリップ単位(クリップ長:W,ただしW>W)の特徴量を算出する。
- フレーム単位の特徴量:
ボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率
- クリップ単位の特徴量:
非無音率、零比率
 さらに、シーン分割部21は、オーディオ信号のフレーム単位の特徴量のクリップ内での平均値および標準偏差を算出し、それらをクリップ単位の特徴量に加える。
 この処理を図18を参照して説明する。
 まず、ステップS1101においてシーン分割部21は、1クリップのオーディオ信号について、オーディオ信号のフレームに分割する。つぎに、ステップS1101で分割した各オーディオ信号のフレームについて、ステップS1102ないしステップS1107においてシーン分割部21は、ボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率を算出する。つぎに、ステップS1108においてシーン分割部21は、1クリップに含まれる各オーディオ信号のフレームのボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率の各特徴量に対する平均値と標準偏差を算出する。
 一方シーン分割部21は、ステップS1109において、1クリップのオーディオ信号について、非無音率を算出し、ステップS1110において、零比率を算出する。
 ステップS1111においてシーン分割部21は、ステップS1108ないしステップS1110において算出した平均値、標準偏差、非無音率および零比率の各特徴量を統合して、クリップにおけるオーディオ信号の特徴量として出力する。
 つぎに、PCAによる特徴量削減処理を説明する。この処理は、図7のステップS104に相当する。
 シーン分割部21は、処理対象信号のクリップから算出された特徴量、および2種類の参照信号から算出されたクリップ単位の特徴量を正規化し、PCAを施す。PCAを施すことで、相関の高い特徴量間の影響を軽減することが可能となる。また、PCAより得られた主成分のうち、その固有値が1以上であるものを以降の処理で使用することで、計算量の増加やヒューズの現象を回避することが可能となる。
 ここで用いられる参照信号は、分類されるクラスに応じて異なる。例えば、図16に示す「CLS#1」は、Si+Noと、Sp+Muとに分類される。このとき用いられる2種類の参照信号の一つは、無音(Si)のみで構成される信号と、雑音(No)のみで構成される信号とを、重ならないように時間軸方向に連結した信号である。もう一つの参照信号は、音声(Sp)のみで構成される信号と、音楽(Mu)のみで構成される信号とを、重ならないように時間軸方向に連結した信号である。また、「CLS#2」において用いられる2種類の参照信号は、無音(Si)のみで構成される信号と、雑音(No)のみで構成される信号である。同様に、「CLS#3」において用いられる2種類の参照信号は、音声(Sp)のみで構成される信号と、音楽(Mu)のみで構成される信号である。
 ここで、主成分分析(PCA)は、複数の変数間の共分散(相関)を少数の合成変数で表す手法である。共分散行列の固有値問題の解として得ることができる。本発明の最良の実施の形態では、処理対象信号から得られた特徴量に対し主成分分析を施すことで、相関の高い特徴量間の影響を軽減している。また、得られた主成分のうち、その固有値が1以上であるものを選択して用いる事で計算量の増加やヒューズの現象を回避している。
 この処理を図19を参照して説明する。図19(a)は、処理対象信号のクリップの主成分を出力する処理で、図19(b)は、参照信号1および参照信号2のクリップの主成分を出力する処理である。
 図19(a)に示す処理を説明する。まず、ステップS1201において、図18を参照して説明した処理に従って算出された処理対象信号のクリップの特徴量が入力される。
 つぎにシーン分割部21は、ステップS1204において、クリップ単位の特徴量を正規化し、ステップS1205において、PCA(主成分分析)を施す。さらにステップS1206においてシーン分割部21は、固定値が1以上となる主成分の軸を算出し、処理対象信号のクリップの主成分を出力する。
 図19(b)に示す処理を説明する。まず、ステップS1251において、参照信号1のクリップから算出される特徴量を入力するとともに、ステップ1252において、参照信号2のクリップから算出される特徴量を入力する。
 つぎにシーン分割部21は、ステップS1253において、参照信号1および参照信号2のそれぞれについて、クリップ単位の特徴量を正規化し、ステップS1254において、PCA(主成分分析)を施す。さらにステップS1255においてシーン分割部21は、固定値が1以上となる主成分の軸を算出し、参照信号1および参照信号2について、一つの主成分を出力する。
 ここで入力される参照信号1および参照信号2は、上述したように、クラスの分類処理によって異なる。後述するCLS#1~3ごとに、各分類処理において用いられる全ての参照信号1および参照信号2について、予め図19(b)の処理が実行される。
 次に、MGDによるクリップのオーディオクラスへの帰属確率の算出処理を説明する。この処理は、図7のステップS105に相当する。
 シーン分割部21は、PCAによる特徴量削減処理で得られた主成分を用いて、MGDを算出する。
 ここで、MGD(マハラノビス汎距離)は、多変数間の相関に基づき算出される距離である。MGDでは、処理対象信号と参照信号との特徴ベクトル群との距離が、マハラノビス汎距離により算出される。これにより、主成分分析で得られた主成分の分布形状を考慮した距離を算出することが可能となる。
 まずシーン分割部21は、処理対象信号において、PCAによる特徴量削減処理で得られた主成分を要素とする特徴ベクトルf(c)(c=1,・・・,3;CLS#1~3に対応)と、同様にして算出される2種類の参照信号の特徴ベクトル群との
Figure JPOXMLDOC01-appb-M000001
を、次式により算出する。
Figure JPOXMLDOC01-appb-M000002
 ただし、
Figure JPOXMLDOC01-appb-M000003
は、それぞれ参照信号iから算出された特徴ベクトルの平均ベクトル、および共分散行列を表す。この
Figure JPOXMLDOC01-appb-M000004
は、固有空間における主成分の分布形状を考慮した距離尺度となる。そこで、この
Figure JPOXMLDOC01-appb-M000005
を用いて、処理対象信号が参照信号1、2と同一のクラスタに属する帰属度
Figure JPOXMLDOC01-appb-M000006
を次式で定義する。
Figure JPOXMLDOC01-appb-M000007
 CLS#1~3の各分類処理において、上記3つを処理することで、帰属度
Figure JPOXMLDOC01-appb-M000008
が得られる。そこで、各オーディオクラス(Si, Sp, Mu, No)への帰属確率
Figure JPOXMLDOC01-appb-M000009
を、以下で定義する。
Figure JPOXMLDOC01-appb-M000010
 上式は、CLS#1からCLS#3の各分類処理において、
Figure JPOXMLDOC01-appb-M000011
を、参照信号1、2と同一のクラスタに分類される確率とみなし、それらを積算することで、Si、Sp、Mu、Noのオーディオクラスに属する確率を算出することを表す。従って、この帰属確率
Figure JPOXMLDOC01-appb-M000012
から、処理対象であるオーディオ信号がどのオーディオクラスにどの程度属しているかを知ることが可能となる。
 この処理を図20を参照して説明する。この処理は、処理対象信号の各クリップに対して実行される。
 まず、ステップS1301において、処理対象信号の各クリップの主成分を要素とするベクトルを入力する。ここで入力されるベクトルは、上述した図19(a)によって算出されたデータである。
 次に、CLS#1の分類処理として、ステップS1302ないしステップS1305が処理される。具体的には、ステップS1302において、処理対象信号と参照信号1との距離を算出し、ステップS1303において、処理対象信号が参照信号1のクラスタに属する帰属度を算出する。さらに、ステップS1304において、処理対象信号と参照信号2との距離を算出し、ステップS1305において、処理対象信号が参照信号2のクラスタに属する帰属度を算出する。
 さらに、CLS#2の分類処理として、ステップS1306ないしステップS1309が処理される。具体的には、ステップS1306において、処理対象信号と参照信号1との距離を算出し、ステップS1307において、処理対象信号が参照信号1のクラスタに属する帰属度を算出する。さらに、ステップS1308において、処理対象信号と参照信号2との距離を算出し、ステップS1309において、処理対象信号が参照信号2のクラスタに属する帰属度を算出する。
 ここで、ステップS1310において、ステップS1303およびステップS1307で算出された帰属度に基づいて、オーディオクラスSiへの帰属確率Pが算出される。同様に、ステップS1311において、ステップS1303およびステップS1309で算出された帰属度に基づいて、オーディオクラスNoへの帰属確率Pが算出される。
 一方、CLS#3の分類処理として、ステップS1312ないしステップS1315が処理される。具体的には、ステップS1312において、処理対象信号と参照信号1との距離を算出し、ステップS1313において、処理対象信号が参照信号1のクラスタに属する帰属度を算出する。さらに、ステップS1314において、処理対象信号と参照信号2との距離を算出し、ステップS1315において、処理対象信号が参照信号2のクラスタに属する帰属度を算出する。
 ここで、ステップS1316において、ステップS1305およびステップS1313で算出された帰属度に基づいて、オーディオクラスSpへの帰属確率Pが算出される。同様に、ステップS1317において、ステップS1305およびステップS1315で算出された帰属度に基づいて、オーディオクラスMuへの帰属確率Pが算出される。
 次に、χ2検定法による映像のショット分割処理を説明する。この処理は、図7のステップS107に相当する。
 本発明の最良の実施の形態においては、分割χ検定法を用いて、ショットカットを得る。分割χ検定法は、まず動画像のフレームを4×4=16個の同じ大きさの矩形領域に分割し、各領域ごとに64色種の色ヒストグラムH(f,r,b)を作成する。ただし、fはビデオ信号のフレーム番号、rは領域番号、bはヒストグラムのビン数を表す。隣接する2枚の動画像のフレームの色ヒストグラムから、次式で算出される評価値E(r=1,・・・,16)を算出する。
Figure JPOXMLDOC01-appb-M000013
さらに、算出された16個の値E(r=1,・・・,16)の中で値の小さい8の総和Esum算出し、Esumが予め設定した閾値よりも大きな値を示す時刻に、ショットカットが存在すると判断する。
 この処理を図21参照して説明する。
 まずステップS1401においてシーン分割部21は、ビジュアル信号のフレームのデータを取得する。次にシーン分割部21は、ステップS1402において、ステップS1401で取得したビジュアル信号のフレームを、4×4=16個の矩形領域に分割し、ステップS1403において、各領域について、64色種の色ヒストグラムH(f,r,b)を作成する。
 さらにステップS1404において、隣接するビジュアル信号のフレーム間で、色ヒストグラムの差分評価Eを算出する。各矩形領域について算出された差分評価Eの中で、小さい8つの総和Esumを算出する。
 ステップS1406において、Esumが閾値よりも大きな値を示す時刻で、ショットカットを判定し、ショット区間を出力する。
 このように、本発明の最良の実施の形態においては、隣接する区間で大きく色ヒストグラムが変化する時刻をショットカットと判定することにより、ショット区間を出力している。
 次に、各ショットに対するオーディオクラスへの帰属確率の算出処理を説明する。この処理は、図7のステップS108に相当する。
 本発明の最良の実施の形態においては、まず単一のショット内における各オーディオクラスへの帰属確率の平均値
Figure JPOXMLDOC01-appb-M000014
を次式で算出する。
Figure JPOXMLDOC01-appb-M000015
ただし、Nはショット内のクリップの総数、kはショット内のクリップ番号、
Figure JPOXMLDOC01-appb-M000016
はk番目のクリップにおける帰属確率
Figure JPOXMLDOC01-appb-M000017
を表す。これら4つの平均値
Figure JPOXMLDOC01-appb-M000018
の値を観察することで、分類対象であるショットが無音、音声、音楽、雑音のうち、どの種類のオーディオ信号を多く含むかが分かる。
 しかしながら、このままでは音楽付き音声や雑音付き音声のクラスが存在せず、音楽付き音声や雑音付き音声が含まれていた場合、分類精度が劣化する危険性がある。ところで、従来手法で算出する帰属確率は、オーディオ信号の各クリップが、各オーディオクラスに属する度合いを表しており、音楽付き音声や雑音付き音声のオーディオ信号を処理対象とした場合、音声のオーディオクラスの帰属確率だけでなく、音楽や雑音のオーディオクラスの帰属確率も高い値を示す。そこで、
Figure JPOXMLDOC01-appb-M000019
に対し、ファジィ推論を行うことで、各ショットを無音、音声、音楽、雑音、音楽付き音声、雑音付き音声の6種類のショットクラスに分類する。
 本発明の最良の実施の形態においては、まず処理対象信号を無音、音声、音楽、雑音の4つのオーディオクラスに分類する。しかしながら、この4種類のクラスだけでは、背景に音楽が存在する環境下での音声(雑音付き音声)や、背景に雑音が存在する環境下での音声(雑音付き音声)等、複数の種類のオーディオ信号が混在する場合に、分類精度が劣化する。そこで、本発明の最良の実施の形態でシーン分割部21は、上記4つのオーディオクラスに加え、新たに音楽付き音声、雑音付き音声のクラスを含む、6つのオーディオクラスへ分類する。これにより、分類精度を向上させ、より高精度に類似シーンを検索することができる。
 まずシーン分割部21は、以下に示す11段階のファジィ変数を用意する。
 NB (Negative Big)
 NBM (Negative Big Medium)
 NM (Negative Medium)
 NSM (Negative Small Medium)
 NS (Negative Small)
 ZO (Zero)
 PS (Positive Small)
 PSM (Positive Small Medium)
 PM (Positive Medium)
 PBM (Positive Big Medium)
 PB (Positive Big)
ここで、それぞれのファジィ変数に対し、次式で定義される三角型のメンバシップ関数が定め、図22に示すように、各変数を割り当てることで、ファジィ集合を生成する。
Figure JPOXMLDOC01-appb-M000020
ただし、a=0.1, b={0, 0.1, ・ ・ ・ , 0.9, 1.0}とする。(式1-8)で算出した
Figure JPOXMLDOC01-appb-M000021
を(式1-9)に代入し、各入力変数のメンバシップ関数の値
Figure JPOXMLDOC01-appb-M000022
を算出する。
 次に、各ショットに対するファジィ推論処理を説明する。この処理は、図7のステップS109に相当する。
 本発明の最良の実施の形態においては、各ショットに対するオーディオクラスへの帰属確率の算出処理で設定された入力変数、およびメンバシップ関数の値
Figure JPOXMLDOC01-appb-M000023
に対し、図23および図24に示すファジィ制御規則
Figure JPOXMLDOC01-appb-M000024
を適用し、各ショットクラスの出力変数
Figure JPOXMLDOC01-appb-M000025
およびメンバシップ関数の値
Figure JPOXMLDOC01-appb-M000026
を算出する。
 次に、ファジィ推論値を用いたシーン分割処理を説明する。この処理は、図7のステップS110に相当する。
 本発明の最良の実施の形態においてシーン分割部21は、ファジィ推論処理で算出される各ショットクラスに属する度合
Figure JPOXMLDOC01-appb-M000027
を用いて、映像信号をシーンに分割する。
 ここで、ηをショット番号とし、隣接するショット間の距離D(η,η)を次式で定義する。
Figure JPOXMLDOC01-appb-M000028
 この距離D(η,η)があらかじめ設定した閾値Thよりも高い値を示す場合、ショット間の類似度は低く、ショットの境界にシーンカットが存在すると判断する。逆に、距離D(η,η)が閾値Thよりも低い値を示す場合、ショット間の類似度が高く、同一のシーンに属すると判断する。これにより、本発明の最良の実施の形態ではショット間の類似度を考慮したシーン分割が可能となる。
 ここで、各ショットに対するオーディオクラスへの帰属確率の算出処理、各ショットに対するファジィ推論処理およびファジィ推論値を用いたシーン分割処理を、図25を参照して説明する。
 まずステップS1501において、各ショットの全クリップにおける帰属確率の平均値を算出する。つぎにステップS1502において、11段階のファジィ係数を読み出し、各ショットに対するメンバシップ関数を算出する。ステップS1501およびステップS1502の処理は、各ショットに対するオーディオクラスへの帰属確率の算出処理に相当する。
 ステップS1503において、入力変数およびメンバシップ関数の値から、出力およびその出力のメンバシップ関数の値を算出する。このとき、図23および図24に示すファジィ制御規則が参照される。ステップS1503の処理は、各ショットに対するオーディオクラスへの帰属確率の算出処理に相当する。
 さらにステップS1504において、異なるショット間でのメンバシップ関数の距離を算出し、ステップS1505において、その距離が閾値よりも大きいか判定する。その距離が閾値よりも大きい場合、そのフレーム間で映像信号のシーンカットを判定し、シーン区間を出力する。ステップS1504およびステップS1505の処理は、ファジィ推論値を用いたシーン分割処理に相当する。
 このように、本発明の最良の実施の形態においては、χ2検定法によるビジュアル信号のショット分割処理によって分割された各ショットについて、各ショットに属するクリップのオーディオ信号についてオーディオクラスへの帰属確率を算出し、ファジィ推論することにより、ファジィ推論値を用いてシーンを分割することができる。
(ビデオ信号類似度算出部)
 次に、図1に示すビデオ信号類似度算出部23の処理を説明する。
 ビデオ信号類似度算出部23は、映像情報に注目した検索または分類するため、シーン分割部21で算出される各シーンに対して、他のシーンとの類似度を算出する処理について説明する。ビデオ信号類似度算出部23は、動画データベース11中に存在する映像のシーン間について、ビジュアル(動画像)信号の特徴量とオーディオ信号の特徴量から、それらの類似度を類似度として算出する。本発明の最良の実施の形態では、まず映像中のシーンをクリップに分割し、各々に対してビジュアル信号の特徴量の抽出、およびオーディオ信号の特徴量を抽出する。さらに、これらの特徴量に対して3次元のDTWを設定することで、シーン間の類似度の算出を可能とする。
 DTWは、2つの1次元信号に伸縮を施し、信号間の類似度を算出する手法である。このため、信号の伸縮が頻繁に生じる信号間の比較に有効である。
 本発明の最良の実施の形態では、従来2次元で定義されているDTWを3次元で再定義し、新たにそれらを用いるためのコストを設定する。このとき、コストをビジュアル信号およびオーディオ信号のそれぞれに設定することにより、2つのシーン間で動画像、音響の一方が異なる場合においても、類似した映像を検索または分類することが可能となる。さらに、DTWの特徴からシーン間の時間尺が異なる場合や、シーン間でビジュアル信号とオーディオ信号の開始時刻にずれが生じた場合においても、適切にシーン間の類似部分を対応付けることが可能となる。
 本発明の最良の実施の形態に係るビデオ信号類似度算出部23について、具体的なアルゴリズムを説明する。
 ビデオ信号類似度算出部23は、映像に含まれるビジュアル信号(動画像信号)とオーディオ信号(音響信号)の双方に着目してシーン間の類似度を算出する。まず、本発明の最良の実施の形態では、与えられたシーンを短時間のクリップに分割し、シーンをクリップの一次元列として表現する。次にビデオ信号類似度算出部23は、各クリップからビジュアル信号による特徴量、およびオーディオ信号による特徴量をそれぞれ抽出する。最後にビデオ信号類似度算出部23は、DTWを用いてクリップ列間の特徴量の類似部分を対応付けし、得られる最適経路をシーン間の類似度として定義する。ここで本発明の最良の実施の形態では、DTWを新たに3次元に拡張して用いることで、ビジュアル信号とオーディオ信号の協調処理によるシーン間の類似度の算出を可能とした。以下、各処理について説明する。
 まず、ビデオ信号のクリップへの分割処理を説明する。この処理は、図8のステップS201に相当する。
 本発明の最良の実施の形態では、処理対象であるシーンを、短時間T[sec]のクリップに分割する。
 次に、ビジュアル信号の特徴量抽出処理を説明する。この処理は、図8のステップS202に相当する。
 本発明の最良の実施の形態では、ビデオ信号のクリップへの分割処理で得られる各クリップからビジュアル信号の特徴量を抽出する。本発明の最良の実施の形態では、ビジュアル信号の特徴として画像の色成分に着目し、各クリップの動画像の所定のフレームからHSV表色系における色ヒストグラムを算出し特徴量に用いる。ここで、動画像の所定のフレームとは、例えば各クリップの動画像の先頭のフレームである。また、人間の知覚システムにおいて色相がより重要なことに着目し、色相、彩度、明度のヒストグラムのビン数を、例えばそれぞれ12、2、2とする。よって、クリップ単位から得られるビジュアル信号の特徴量は全部で48次元になる。本実施例においては、色相、彩度、明度のヒストグラムのビン数が、12、2、2の場合について説明するが、任意に設定されても良い。
 この処理を図26を参照して説明する。
 まず、ステップS2101において、クリップの動画像の所定のフレームを抽出し、ステップS2102において、RGB表色系からHSV表色系へ変換する。
 つぎにステップS2103において、例えば、H軸を12、S軸を2、V軸を2に分割した3次元色ヒストグラムを生成して、この3次元色ヒストグラムを当該クリップのビジュアル信号の特徴量として算出する。
 次に、オーディオ信号の特徴量抽出処理を説明する。この処理は、図8のステップS203に相当する。
 本発明の最良の実施の形態において、ビデオ信号のクリップへの分割処理で得られる各クリップからオーディオ信号の特徴量を抽出する。本発明の最良の実施の形態では、オーディオ信号の特徴量として10次元の特徴量が用いられる。具体的には、クリップに含まれるオーディオ信号が、固定長T[sec](T<T)のフレーム毎に解析される。
 まず、各クリップからオーディオ信号の特徴量を抽出する際に、オーディオ信号に含まれる音声部分の影響を軽減するために、オーディオ信号の各フレームを音声フレームと背景音フレームに分類する。ここで、オーディオ信号における音声部分の特徴は大きな振幅と、大部分がフォルマント周波数と呼ばれる低周波数のパワーを持つことに着目し、短時間のエネルギー(以降、STE)と短時間のスペクトル(以降、STS)を用いてオーディオ信号の各フレームを分類する。
 ここで、オーディオ信号の各フレームから得られるSTEとSTSは、次式で定義される。
Figure JPOXMLDOC01-appb-M000029
ここで、ηはオーディオ信号のフレーム番号、Fはオーディオ信号のフレームの移動幅を表す移動回数、x(m)はオーディオの離散信号、ω(m)はmが時間枠の中にあれば1を、そうでなければ0を取る。また、STS(k)は周波数が
Figure JPOXMLDOC01-appb-M000030
のときの短時間のスペクトルであり、fは離散サンプリング周波数である。もし、STEの値が閾値Thを越えていて、尚かつ440-4000Hzの範囲でのSTSの値が閾値THを越えていれば、そのオーディオ信号のフレームは音声フレームとして、分類される。一方越えていなければ、そのオーディオ信号のフレームは背景音フレームとして分類される。
 これらの分類されたオーディオ信号のフレームを用いて、以下に示すクリップ単位の10次元の特徴量を算出する。
Figure JPOXMLDOC01-appb-M000031
 ここで、平均エネルギーとは、クリップ内のオーディオ信号の全フレームが持つエネルギーの平均である。
Figure JPOXMLDOC01-appb-M000032
 ここで、低エネルギー率(低STE率)とは、クリップ内のエネルギーの平均以下のエネルギーを持つ背景音フレームの割合である。
Figure JPOXMLDOC01-appb-M000033
 ここで、平均零交差率とは、クリップ内の全背景音フレーム内における隣り合うオーディオ信号の符号が変化する割合の平均である。
Figure JPOXMLDOC01-appb-M000034
 ここで、スペクトルフラックス密度とは、クリップ内のオーディオ信号が持つ周波数スペクトルの時間推移の指標である。
e)音声フレーム率VFR:
 ここで、VFRはクリップに含まれるオーディオ信号の全フレームにおける音声フレームの割合である。
Figure JPOXMLDOC01-appb-M000035
 ここで、平均サブバンドエネルギー比率とは、クリップ内のオーディオ信号のオーディオスペクトルに対し全周波数でのパワースペクトルの総和に対しての、0-630、630-1720、1720-4400、4400-11000(Hz)のそれぞれの範囲におけるパワースペクトルの割合である。
g)STE標準偏差ESTD:
 STEの標準偏差ESTDは、次式で定義される。
Figure JPOXMLDOC01-appb-M000036
 ここで、エネルギー(STE)標準偏差とは、クリップ内のオーディオ信号の全フレームが持つエネルギーの標準偏差である。
 この処理を図27を参照して説明する。
 まずステップS2201において、オーディオ信号の各クリップについて、短時間のオーディオ信号のフレームへ分割される。つぎにステップS2202において、オーディオ信号のフレーム内のオーディオ信号が持つエネルギーが算出されるとともに、ステップS2203において、フレーム内のオーディオ信号が持つスペクトルが算出される。
 ステップS2204において、ステップS2201で分割されたオーディオ信号の各フレームが、音声フレームと背景音フレームに分類される。この分類されたオーディオ信号のフレームに基づいて、ステップS2205において、上述したa)からg)の各特徴量が算出される。
 次に、3次元DTWを用いたシーン間の類似度算出処理を説明する。この処理は、図8のステップS204に相当する。
 本発明の最良の実施の形態では、ビジュアル信号の特徴量抽出処理およびオーディオ信号の特徴量抽出処理で得られたクリップ単位の特徴量を用いて、シーン間の類似度を定義する。一般的に、クリップ列の比較にDTWを用いて類似部分を対応づけ、得られる最適経路をシーン間の類似度として定義している。しかしながら、この場合、DTWに用いる局所コストをクリップ間の全特徴量の差に基づき決定しているため、シーン間において片方の信号のみが類似している場合や、シーン間においてビジュアル信号とオーディオ信号の開始時刻にズレが発生した場合などに適切な類似度が得られない可能性がある。
 そこで、本発明の最良の実施の形態では、DTWを3次元に拡張して新たな局所コストと局所パスを設定する事で、これらの問題を解決する。以下、(処理4-1)、(処理4-2)でそれぞれ3次元DTWで用いられる局所コストと局所パスについて説明する。さらに、(処理4-3)で3次元DTWにより算出されるシーン間の類似度について説明する。
(処理4-1)局所コストの設定
 本発明の最良の実施の形態では、まず、3次元DTWの3つの要素として、クエリシーンのクリップτ(1≦τ≦T)、ターゲットシーンのビジュアル信号のクリップt(1≦t≦T)、ターゲットシーンのオーディオ信号のクリップt(1≦t≦T)をそれぞれ用いる。この3つの要素に対し、3次元DTW上の各格子点における局所コストd(τ,tx,)を以下の3種類で定義する。
Figure JPOXMLDOC01-appb-M000037
ここで、fv,tは時刻tのクリップに含まれるビジュアル信号から得られる特徴ベクトル、fA,tは時刻tのクリップに含まれるオーディオ信号から得られる特徴ベクトルであり、各時刻において特徴量の総和が1となるようにそれぞれ正規化されている。
(処理4-2)局所パスの設定
 本発明の最良の実施の形態で用いられる3次元DTW上の各格子点は、図28および図29に示すように直前の7つの格子点からそれぞれ局所パス#1~#7で連結されている。以下に各局所パスが持つ役割を示す。
a)局所パス#1および#2について
 局所パス#1および#2は、クリップ単位による伸縮を許容するパスである。パス#1はクエリシーンのクリップの時間軸方向への伸縮を、パス#2はターゲットシーンのクリップの時間軸方向への伸縮をそれぞれ許容する役割を持つ。
b)局所パス#3ないし#5について
 局所パス#3ないし#5は、類似部分の対応付けるパスである。クリップ間において、パス#3はビジュアル信号を、パス#4はオーディオ信号を、パス#5は両方の信号を類似部分としてそれぞれ対応付ける役割を持つ。
c)局所パス#6および#7について
 局所パス#6および#7は、両信号の同期によるズレを許容するパスである。パス#6はシーン間におけるビジュアル信号の時間軸方向へのズレを、パス##7はシーン間におけるオーディオ信号の時間軸方向へのズレをそれぞれ許容する役割を持つ。
(処理4-3)シーン間の類似度の定義
 上述した(処理4-1)および(処理4-2)で説明した局所コストと局所パスを用いて、累積コストS(τ,tx,)を直前の7つの格子点からの累積コストと移動コストの和が最小となる格子点を用いて、以下で定義する。
Figure JPOXMLDOC01-appb-M000038
Figure JPOXMLDOC01-appb-M000039
ただし、α、β、γはそれぞれ対応する局所パスを用いた場合にかかる移動コストを表す定数である。これにより、最終的なシーン間の類似部分の対応付けと、その対応付けによるシーン間の類似度Dは次式により定義される。
Figure JPOXMLDOC01-appb-M000040
 この処理を図30を参照して説明する。
 まず、ステップS2301において、3次元DTWを用いたシーン間の特徴量に基づいてマッチングされる。具体的には、上記(式2-10)における{}内の7つの結果のうち、最小のものを選択する。
 つぎにステップS2302において、3次元DTWに必要な局所コストが設定され、ステップS2303において、局所パスが設定される。さらにステップS2304においてα、β、γの各移動コストする。αは、パス#1およびパス#2の移動コストであり、βは、パス#3およびパス#4の移動コストであり、γは、パス#6およびパス#7の移動コストである。
 さらにステップS2305において、マッチングによる最適経路が、シーン間の類似度として算出される。
 このように、本発明の最良の実施の形態においては、ビジュアル信号の特徴量とオーディオ信号の特徴量に基づいて、3次元DTWを用いてシーン間の類似度を算出する。ここで3次元DTWを用いることにより、後述する表示部で、3次元座標を基づいてシーンの類似度を可視化することができる。
(DTWの概要)
 ここで、DTWの概要について説明する。
 本発明の最良の実施の形態における類似度算出処理で用いられるDTWの構成について説明する。DTWは、二つの一次元信号に伸縮を施し、信号間の類似度を算出する手法である。このため、時系列において伸縮の生じる信号等の比較に有効である。特に音楽信号では、演奏速度の変化が頻繁に発生することから、類似度より求められる類似度の算出にDTWを用いることは有効と考えられる。以降、類似度算出において、参照する信号を参照パターン、参照パターンとの類似度を求める信号を被参照パターンと呼ぶ。
 まず、DTWによるパターン間の類似度の算出について説明する。長さIの一次元の参照パターンに含まれる各要素を順にa,a,・・・aとし、長さJの被参照パターンに含まれる各要素を順にb,b,・・・bと表現する。さらに、各パターンの位置集合を{1,2,・・・,I},{1,2,・・・,J}で表現すると、パターンの各要素間の対応を決定する伸縮写像w:{1,2,・・・,I}->{1,2,・・・,J}は以下の性質を満たす。
a)wはパターンの始点、終点を一致させる。
Figure JPOXMLDOC01-appb-M000041
b)wは単調写像である。
Figure JPOXMLDOC01-appb-M000042
 このような写像wを用いたとき、パターン間の類似度の算出は図31における格子点(b,a)から格子点(b,a)までの最短経路の探索問題に置換することができる。そこで、DTWでは、「初期状態の最初の決定が何であろうとも、以後の決定は最初の遷移から生じた状態に関して適切でなければならない」という最適性の原理に基づいて上記の経路探索問題を解く。
 すなわち、全体の経路長が、部分の経路長の和から求められる。部分の経路長は、経路上の格子点(j,i)におけるコストd(j,i)および2つの格子点(j,i)、(b,a)間の移動コストcj,i(b,a)を用いて算出される。部分の経路長の算出を図32に示す。ここで、格子点上のコストd(j,i)は、参照パターンと被参照パターンの間で対応する要素が異なる場合のペナルティである。また、移動コストcj,i(b,a)は、参照パターンと被参照パターンの間で伸縮が生じた場合、格子点(b,a)から格子点(j,i)に移動するペナルティである。
 上記のコストに基づいて部分の経路長が算出され、経路全体のコストが最小となる部分経路が選択される。最後に、選択された部分経路毎のコストの和を算出することで、全体の経路長が得られる。以上より、パターンの部分毎の類似度からパターン全体の類似度を得ることが可能となる。
 本発明の最良の実施の形態においては、DTWをオーディオ信号に適用することから、オーディオ信号の類似度算出における特徴を考慮し、さらに詳細な類似度の算出法を決定する。
 本発明の最良の実施の形態では、音楽の特徴として、同一楽曲の演奏速度が異なる場合にも、楽譜上の音符が欠落することがない点に着眼する。この特徴を換言すると以下の2点で表現可能と考えられる。
a)被参照パターンが、参照パターンに伸縮のみを加えたパターンである場合、これらのパターンは同一と見なす。
b)被参照パターンと参照パターンが同一の場合、被参照パターンは参照パターンを欠落することなく含有する。
 上記の特徴を、格子点間の移動による類似度算出に適用すると、参照パターンに含まれる全ての要素について、被参照パターンに含まれる要素との対応を決定することを意味する。これより、伸縮写像wは次式に示す傾斜制限を加えることが可能となる。
Figure JPOXMLDOC01-appb-M000043
 本発明の最良の実施の形態では、以上の条件に従ってDTWによる類似度を算出する。これより類似度は、(式2-15)を用いて経路長を漸化的に求めることで算出可能となる。
Figure JPOXMLDOC01-appb-M000044
(オーディオ信号類似度算出部)
 次に、図1に示すオーディオ信号類似度算出部24の処理を説明する。
 オーディオ信号類似度算出部24は、シーン分割部21で算出されるシーンに対して音楽情報に注目した検索または分類するため、類似度を算出する。本発明の最良の実施の形態では、動画データベース11からシーン分割部21で得られる全てのシーン中で、オーディオ信号のベース音に基づく類似度、他楽器に基づく類似度、リズムに基づく類似度を算出する。本発明の最良の実施の形態では、オーディオ信号類似度算出部24は、オーディオ信号に対して以下の三種類の類似度を算出する。
・ ベース音に基づく類似度算出
・ 他楽器に基づく類似度算出
・ リズムに基づく類似度算出
 ベース音に基づく類似度算出について、本発明の最良の実施の形態では、オーディオ信号に対して、ベース音を含むと考えられる周波数の信号のみを求めるため、帯域通過フィルタを施す。次に、得られる信号から各時刻におけるスペクトルを求めるためオーディオ信号類似度算出部24は、時間・周波数に注目した重み関数を用いて、重み付きパワースペクトルを算出する。さらにオーディオ信号類似度算出部24は、得られる各時刻のパワースペクトルにおいてピークを持つ周波数を求めることで、ベース音高の推定を可能とする。さらにオーディオ信号類似度算出部24は、全ての2シーン間について、そのオーディオ信号のベース音高の推移を求め、これをDTWへ入力することで、二つの信号の類似度の算出を実現する。
 他楽器に基づく類似度算出について、本発明の最良の実施の形態では、オーディオ信号に対して、「ド」、「レ」、「ミ」、「ソ#」等、音名12要素を示す周波数のエネルギーをパワースペクトルから算出する。さらに、これら12要素のエネルギーを正規化することで、エネルギーの割合の時間推移を算出する。このようにして得られるエネルギーの割合についてDTWを用いることで、本発明の最良の実施の形態では全ての2シーン間で、オーディオ信号の他楽器に基づく類似度算出が可能となる。
 リズムに基づく類似度算出について、本発明の最良の実施の形態では、まず、オーディオ信号に対して、2分割フィルタバンクを用いることで、異なる周波数を含む信号をそれぞれ算出する。次に、各周波数を含む信号に対して、包絡線を検波し、信号の概形を得る。ここで、包絡線は、“信号の各時刻における接線を共有する曲線”である。尚、この処理は、「全波整流」、「低域通過フィルタの適用」、「ダウンサンプリング」、「平均値除去」を順に施すことで、実現される。さらに、これらの信号をすべて足し合わせて得られる信号に対して、自己相関関数を求め、これをリズム関数として定義する。最後に、全ての2シーン間で、それらのオーディオ信号のリズム関数をDTWへ入力することで、二つの信号の類似度の算出を実現する。
 以上に示す、3つの類似度算出処理を施すことで、本発明の最良の実施の形態では3つの類似度を楽曲間の類似性を表す指標として求めることが可能となる。
 このように本発明の最良の実施の形態では、音楽の構成要素であるメロディーに着眼している。音楽におけるメロディーとは、複数の音源により構成される基本周波数の時間推移である。本発明の最良の実施の形態では、このメロディーの定義に従い、メロディーがベース音と、それ以外の楽器音から構成されると仮定する。さらに、この仮定に基づき、ベース音が示すエネルギーの推移、およびベース以外の楽器が示すエネルギーの推移についてマッチング処理を施すことで類似度を得る。ベース音が示すエネルギーには、ベース音が存在する周波数域のパワースペクトル、その他の楽器音が示すエネルギーには、C、D、E・・・等の音名が示す周波数のエネルギーを用いる。上記のエネルギーを用いると、音楽信号における以下2点の特徴に有効と考えられる。
 まず、楽器音は基本周波数の倍音を多く含む(以降、倍音構造)ため、周波数域が高くなるに従い、基本周波数の特定が困難となる点である。次に、楽曲中には発音の際に発生する擦弦音等の雑音が含まれ、音階上に存在しない周波数が楽器音の基本周波数として推定され得る点である。
 本発明の最良の実施の形態は、ベース以外の楽器音のエネルギーとして、各音名が示す周波数のエネルギーを用いるため、上記の倍音構造、雑音の影響を軽減可能とすることができる。また、低周波数域に基本周波数を持つベース音を併せて用いることで、倍音構造の影響をより軽減した類似度算出を可能とすることができる。さらに、類似度の算出にはDTWを用いるため、メロディーの伸縮や欠落が生じた場合にも類似度算出をすることができる。以上により、本発明の最良の実施の形態はメロディーに基づいて楽曲間の類似度を算出することができる。
 さらに、音楽の構成では、メロディーに加えてリズムが重要な要素として知られる。そこで、本発明の最良の実施の形態では、音楽の構成要素として新たにリズムに着眼し、リズムから楽曲間の類似度を算出する。また、類似度算出には、DTWを用いることで、楽曲の時間軸方向への伸縮を許容し、適切な類似度の算出を可能とする。
 本発明の最良の実施の形態に係るオーディオ信号類似度算出部24は、映像中の音楽情報、つまりオーディオ信号に対して、「ベース音に基づく類似度」、「他楽器に基づく類似度」、「リズムに基づく類似度」を算出する。
 まず、本発明の最良の実施の形態においては、音楽のメロディーの推移に着眼し、楽曲の類似度算出を可能とする。本発明の最良の実施の形態では、メロディーがベース音、およびベース以外の楽器音から構成されると仮定する。これは、ベース音と他楽器音により同時に発音される音がメロディーの特徴を決定する和音や調の指標となるためである。
 本発明の最良の実施の形態では上記の仮定に基づき、それぞれの楽器音のエネルギーにDTWを適用することで類似度の算出を可能とする。
 さらに、本発明の最良の実施の形態においては、楽曲のリズムに基づく新たな類似度を算出する。音楽におけるリズムは、メロディー、コード(和音)と併せて音楽の三要素と呼ばれ、楽曲の細かな構成を決定する重要な要素として知られる。そこで、本発明の最良の実施の形態では、リズムに着眼して楽曲間の類似度を定義する。
 本発明の最良の実施の形態は、音楽信号の自己相関関数に基づいてリズムを表す定量値(以降、リズム関数)を新たに定義し、リズム関数にDTWを適用することで類似度を算出する。これにより、本発明の最良の実施の形態は、音楽の構成要素として重要なリズムに基づく類似度の算出を実現可能とする。
 以下、「ベース音に基づく類似度」、「他楽器に基づく類似度」、「リズムに基づく類似度」のそれぞれについて、詳述する。
(ベース音に基づく類似度算出)
 オーディオ信号類似度算出部24において、ベース音に基づく類似度算出処理を説明する。この処理は、図9のステップS301および図10に相当する。
 本発明の最良の実施の形態では、楽曲中のベース音の推移として、ベース音が示す音高の推移を用いる。音高とは、楽譜上に記載される各音符が示す基本周波数とする。したがって、音高の推移はベース音に含まれる主要な周波数におけるエネルギーの推移を意味する。
 ベース音に基づく類似度算出においては、図33に示すように、まず、帯域通過フィルタによってベース音が抽出される。このときのパワースペクトルを、G11に示す。オーディオ信号類似度算出部24は、このパワースペクトルから、重み付きパワースペクトルを算出し、G12に示すように、それぞれの音階をあてはめる。さらに、G13に示すようにオーディオ信号類似度算出部24は、音階ごとに、ヒストグラムを算出する。このとき、ヒストグラムで最大値を持つ「B」が、ベース音の音階として選択される。
 図33においては、パワースペクトルから音階をあてはめ、その後、ベース音の音階を選択する場合について説明したが、この方法には限られない。具体的には、パワースペクトルから、周波数毎のヒストグラムを取得し、最大値の周波数から音階を取得しても良い。
 ベース音に基づく類似度算出処理について、具体的なアルゴリズムを以下に示す。尚、各処理は図10の各ステップに対応する。
 まず、通過帯域フィルタによるベース音の抽出処理を説明する。この処理は、図10のステップS311に相当する。
 この処理では、オーディオ信号に対し、ベース音の周波数域40-250Hzを通過域とする帯域通過フィルタを施し、得られた信号の各時刻でパワースペクトルを算出する。
 つぎに、時間・周波数に注目した重み付きパワースペクトルの算出処理を説明する。この処理は、図10のステップS312に相当する。
 この処理では、通過帯域フィルタによるベース音の抽出処理で得られるパワースペクトルの時間軸方向、および周波数軸方向に、ガウス関数に基づく重みを付加する。ここで、時間軸関数の重みを付加することにより、対象時刻のパワースペクトルが大きく利用される。周波数軸方向の重みを付加することにより、各音階(C、C#、D、・・・、H)に重みを置くことで、音階上の信号が選択される。ここで、ガウス関数による重みとは、exp{-(x-μ)/(2σ)}である(μ=平均、σ=標準偏差)。最後に、重み付けされた各時刻のパワースペクトルにおいて最大のエネルギーを与える周波数が、音高として推定される。時刻t(0≦t≦T)、周波数fにおいて、パワースペクトルより算出されるエネルギーをP(t、f)とし、重み付けされたパワースペクトルを(式3-1)に示すR(t、f)で定義する。
Figure JPOXMLDOC01-appb-M000045
 ここで、
Figure JPOXMLDOC01-appb-M000046
Figure JPOXMLDOC01-appb-M000047
また、(式3-4)で示すFは、MIDI(Musical Instrument Digital Interface)のm番目のノートにおける周波数を表す。
 (式3-1)に示すR(t、f)は、(式3-2)の時間軸方向の重みにより、一定時間持続する基本周波数を音高と推定可能とする。また、(式3-3)に示す周波数軸方向の重みにより、音階上に存在する周波数のみを音高として推定可能とする。
 つぎに、重み付きパワースペクトルを用いたベースの音高推定処理を説明する。この処理は、図10のステップS313に相当する。
 この処理では、R(t、f)の各時刻tにおいて最大値を与える周波数fをベースの音高とし、B(t)と表す。
 つぎに、DTWを用いたベース音高の類似度算出処理を説明する。この処理は、図10のステップS314に相当する。
 この処理は、データベース中の全ての二映像間においてオーディオ信号のベース音高を推定し、上述したDTWによる類似度を算出する。ここで、上述したDTWの説明において、(式2-15)中で用いる各コストは以下のように設定する。
Figure JPOXMLDOC01-appb-M000048
ただし、α>βとする。これにより、メロディーの不一致によるコストと比較して、演奏速度の変化等に伴うメロディーのずれに対するコストが小さくなる。以上により得られた類似度をDと表す。
 ここで、図34を参照して、本発明の最良の実施の形態に係るベース音に基づく類似度算出処理を説明する。
 まず、動画データベース11の各シーンについて、ステップS3101ないしステップS3109の処理が実行される。
 ステップS3101において、1つのシーンにフーリエ変換をする。ステップS3102において、40-250Hzを通過域とするフィルタを施す。ステップS3103において、各時刻について、パワースペクトルP(s,f)を算出する。
 一方、ステップS3104において、時間軸方向の重みを算出するとともに、ステップS3105において、周波数軸方向の重みを算出する。さらにステップS3106において、ステップS3104およびステップS3105において算出された時間軸方向の重みおよび周波数軸方向の重みに基づいて、重み付きパワースペクトルを算出して、ステップS3107においてR(t,f)を出力する。さらに、各時刻tでR(t、f)の最大値を与える周波数fを求め、B(t)とする。ステップS3109において、このB(t)をベース音の時間推移として出力する。
 各シーンについて、ステップS3101ないしステップS3109の処理が終了すると、ステップS3110ないしステップS3112において、任意の2シーンのベース音について、類似度を算出する。
 まずステップS3110において、所定の時刻間において、(式3-6)においてコストd(i,j)を決定するために、ベース音の一致不一致を算出する。次に、ステップS3111において、(式3-6)および(式3-7)に従って、DTWにおけるコストd(i,j)およびCi,j(b,a)を設定する。ステップS3112において、DTWによる類似度を算出する。
(他楽器に基づく類似度算出)
 オーディオ信号類似度算出部24において、他楽器に基づく類似度算出処理を説明する。この処理は、図9のステップS302および図11に相当する。
 一般的な音楽の構成では、主にベース音が楽曲の最低音となるため、その他の楽器音はベース音の周波数域より高い周波数を示す。また、ベース音より高い周波数域で、各音名は図35の周波数を持ち、各周波数の2(k=1,2,・・・)倍の周波数も同一の音名として扱われる。
 そこで、本発明の最良の実施の形態では、ベース以外の楽器音が示すエネルギーを、ベース音より高く、かつ音名を持つ周波数のエネルギーとする。さらに、各音名が示す周波数のエネルギーには、図35の2倍の周波数が示すエネルギーの和を用いる。これにより、本発明の最良の実施の形態では、複数の楽器による倍音構造を軽減し、音高の推定が困難な周波数域に存在する楽器音についても類似度算出に用いることを可能とする。
 このように、ある音階X(例えば、C、C#、D、またはH等)について注目するとき、その音は、1オクターブ上、2オクターブ上と、オクターブ単位で同様に存在する。ここで、ある音階の周波数をfxと表す場合、図36に示すように、1オクターブ上、2オクターブ上・・・の各音は、それぞれ、2fx、4fx・・・・で与えられる。
 以下で詳細を説明する。なお、オーディオ信号は信号長T秒、サンプリングレートfとし、時刻t(0≦t≦T))、周波数fに対するエネルギーをパワースペクトルより算出し、P(t、f)と表す。
 他楽器に基づく類似度算出においては、図37に示すように、まず、音名が示す周波数のエネルギーが抽出される。具体的には、後述する(式4-1)のエネルギーPx(t)をG21に示す。G22に示すように、このエネルギーP(t)から、それぞれの音階をあてはめる。さらに、G23に示すように、音階ごとに、ヒストグラムを算出する。G23においては、各音階について、4オクターブ分のパワースペクトルを加算した結果、具体的には(式4-1)により得られるPx(t)を示している。
 図37に示す処理において、CからHまでの各12音階について、4オクターブ分の周波数のエネルギーP(t)、PC#(t)・・・・P(t)を算出する。
 図37においては、パワースペクトルから音階をあてはめ、その後、ベース音の音階を選択する場合について説明したが、この方法には限られない。具体的には、パワースペクトルから、周波数毎のヒストグラムを取得し、最大値の周波数から音階を取得しても良い。
 具体的なアルゴリズムを以下に示す。尚、各処理は図11の各ステップに対応する。
 まず、音名が示す周波数のエネルギーの算出処理を説明する。この処理は、図11のステップS321に相当する。
 パワースペクトルから、各音名が示す周波数のエネルギーを算出する。図35において音名Xに対応する周波数をfとして、音名Xが示す周波数のエネルギーP(t)を次式で定義する。
Figure JPOXMLDOC01-appb-M000049
ただし、Kは
Figure JPOXMLDOC01-appb-M000050
を越えない任意の整数とする。(式4-1)により各音名が示す周波数のエネルギーを定義することで、低周波数域に存在する音の倍音の影響が軽減可能となる。
 次に、エネルギー割合の算出処理を説明する。この処理は、図11のステップS322に相当する。
 音名が示す周波数のエネルギーの算出処理で得られた各音名が示す周波数のエネルギーを全周波数域に対するエネルギーの割合で表現する。これにより、音名毎に時間軸方向での比較が可能となり、推移を得ることが可能となる。音名Xが示す周波数のエネルギーの割合px(t)は次式で示される。
Figure JPOXMLDOC01-appb-M000051
以上を全てのt、Xについて施し、得られたpx(t)をベース以外の楽器音におけるエネルギーの推移として用いる。
 次に、DTWを用いた音名エネルギー割合の類似度算出処理を説明する。この処理は、図11のステップS323に相当する。
 データベース中の全ての二映像間においてオーディオ信号のベース以外の楽器音のエネルギーを算出し、それぞれpx(t)、px(t)と表す。これらを用いて各音名毎にDTWによる類似度が算出される。したがって、類似度は音名の数である12だけ得られる。そこで、ベース以外の楽器音の類似度は音名毎に得られた類似度の和により定義する。すなわち、音名Xについて得られる類似度をDaとすると、ベース以外の楽器による音の類似度Daは次式で表される。
Figure JPOXMLDOC01-appb-M000052
なお、DTWによる類似度算出に用いるコストは以下のように設定する。
Figure JPOXMLDOC01-appb-M000053
 (式4-3)により、全ての音名が示す周波数のエネルギーの推移を用いた類似度算出が可能となる。また、(式4-4)に示すコストを設定することで、エネルギーの大きな周波数に対応する音名が、類似度全体に与える影響を増加する。これにより、メロディーを構成する主要な周波数成分を反映した類似度算出が可能となる。
 ここで、図38を参照して、本発明の最良の実施の形態に係る他楽器に基づく類似度算出処理を説明する。
 まず、動画データベース11の各シーンについて、ステップS3201ないしステップS3206の処理が実行される。
 ステップS3201において、1つのシーンにフーリエ変換をする。ステップS3202において、各時刻のパワースペクトルを算出し、ステップS3203において、音名Xが示す周波数エネルギーPx(t)を算出して、px(t)を算出する。
 一方、ステップS3204において、全周波数のエネルギーを算出する。さらにステップS3205において、ステップS3203で算出された音名が示す周波数のエネルギーPx(t)と、ステップS3204で算出された全周波数のエネルギーに基づいて、エネルギーの割合px(t)を算出する。ステップS3206において、このエネルギーの割合px(t)を、ベース以外の楽器音におけるエネルギーとして出力する。
 各シーンについて、ステップS3201ないしステップS3206の処理が終了すると、ステップS3207ないしステップS3210において、任意の2シーンのエネルギーの割合について、類似度を算出する。
 まずステップS3207において、DTWにおけるコストd(i,j)およびCi,j(b,a)を設定し、ステップS3208において、DTWによって、各音名における2シーン間の類似度を算出する。ステップS3209において、ステップS3208において算出された全音名の類似度の和Daを算出する。ステップS3210において、この和Daを、ベース音以外の楽器による音の類似度として出力する。
(リズムに基づく類似度算出)
 オーディオ信号類似度算出部24において、リズムに基づく類似度算出処理を説明する。この処理は、図9のステップS303および図12に相当する。
 楽曲のテンポに代表される細かなリズムは、打楽器を含めた全ての楽器における発音時刻の間隔により定義される。また、大域的なリズムは、連続して発音される楽器音により構成される楽句や楽節等が出現する間隔により決定すると考えられる。したがって、リズムは上記の時間間隔によって与えられるため、一定の区間内では楽曲の時刻に依存しない。そこで、本発明の最良の実施の形態ではオーディオ信号が弱定常性であると仮定し、自己相関関数によりリズム関数を表現する。これにより、本発明の最良の実施の形態は、オーディオ信号を用いて楽曲のリズムを一意に表現し、リズムに基づく類似度の算出を可能とする。
 具体的なアルゴリズムを以下に示す。尚、各処理は図12の各ステップに対応する。
 まず、2分割フィルタバンクによる低周波・高周波成分の算出処理を説明する。この処理は、図12のステップS331に相当する。
 2分割フィルタバンクによる低周波・高周波成分の算出処理においては、2分割フィルタバンクを用いて、処理対象信号を階層的に高周波、および低周波へU回だけ分解し、高周波成分を含む側の信号をx(n)(u=1,・・・・U;,n=1,・・・・N)と表す。ここで、Nはxの信号長を示す。このようにして得られた各信号は、それぞれ異なる周波数帯を示すため、含まれる楽器の種類も異なると考えられる。したがって、得られた信号毎のリズムを推定し、結果を統合することで、複数種類の楽器音によるリズムが推定可能となる。
 図39を参照して、2分割フィルタバンクによる低周波・高周波成分の算出処理を説明する。ステップS3301において、2分割フィルタにより、低周波成分と高周波成分に分ける。次に、ステップS3301で分割された低周波成分を、ステップS3302において、さらに低周波成分と高周波成分に分ける。一方、ステップS3301で分割された高周波成分を、ステップS3303において、さらに低周波成分と高周波成分に分ける。このように所定回数(U回)だけ、2分割フィルタ処理を繰り返し、ステップS3304において、高周波成分を含む側の信号x(n)を出力する。図40に示すように、入力された信号の高周波成分が、2分割フィルタバンクによる低周波・高周波成分の算出処理によって出力されている。
 次に、包絡線の検波処理を説明する。この処理は、図12のステップS332ないしステップS335に相当する。以下の1)ないし4)は、それぞれ図12のステップS332ないしステップS335である。
 2分割フィルタバンクによる低周波・高周波成分の算出処理で得られた信号x(n)から、包絡線が検波される。包絡線は、信号の各時刻における接線を共有する曲線であり、信号の概形を得ることを可能とする。したがって、包絡線の検波により、楽器の発音に伴って音量が増加する時刻が推定可能となる。以下に包絡線を検波する処理の詳細を示す。
1)全波整流
 (式5-1)に示す全波整流を施し、信号y1u(n)(u=1,・・・・,U;,n=1,・・・・,N)を得る。
Figure JPOXMLDOC01-appb-M000054
 全波整流を施すことにより、図41(a)に示す波形から、図41(b)に示す波形を得ることができる。
2)低域通過フィルタの適用
 1)全波整流で得られた信号y1u(n)に対し、(式5-2)に示す単純な低域通過フィルタを施し、信号y2u(n)(u=1,・・・・,U;,n=1,・・・・,N)を得る。
Figure JPOXMLDOC01-appb-M000055
 ただし、αは遮断周波数を定める定数である。
 低域通過フィルタを通すことにより、低周波数の信号から、図42(a)に示す信号が出力される。具体的には、ローパスフィルタを通しても信号は変化せず、ハイパスフィルタを通すことにより、小刻みな波の信号が出力される。また、低域通過フィルタを通すことにより、高周波数の信号から、図42(b)に示す信号が出力される。具体的には、ハイパスフィルタを通しても信号は変化せず、ローパスフィルタを通すことにより、なだらかな波の信号が出力される。
3)ダウンサンプリング
 2)低域通過フィルタの適用で得られた信号y2u(n)に対し、(式5-3)に示すダウンサンプリングを施し、信号
Figure JPOXMLDOC01-appb-M000056
を得る。
Figure JPOXMLDOC01-appb-M000057
 ただし、sはサンプリング間隔を定める定数である。
 ダウンサンプリング処理をすることにより、図43(a)に示す信号から間引きされ、図43(b)に示す信号が出力される。
4)平均値除去
 3)ダウンサンプリングで得られた信号y3u(n)に(式5-4)を施し、信号の平均が0となる信号y(n)(u=1,・・・・,U;,n=1,・・・・,N)を得る。
Figure JPOXMLDOC01-appb-M000058
 ただし、E[y3u(n)]は信号y3u(n)の平均値を示す。
 平均値除去処理をすることにより、図44(a)に示す信号から、図44(b)に示す信号が出力される。
 次に、自己相関関数の算出処理を説明する。この処理は、図12のステップS336に相当する。
 包絡線の検波処理で得られた信号y(n)を2u-1倍のサンプリングレートにアップサンプリングし、信号長を等しくした後、すべてを加算する。これにより得られた信号をy(n)(n=1,・・・・,N)とする。ただし、Nは信号長を表す。さらに、y(n)を用いて、自己相関関数z(m)(m=0,・・・,N-1)を次式により算出する。
Figure JPOXMLDOC01-appb-M000059
 自己相関について、図45を参照して説明する。自己相関関数とは、信号とそれ自身をmだけ移動(シフト)した信号との相関を表しており、m=0のときに最大となる関数である。ここで、信号に繰り返しが存在する場合、その倍数位置(m)においてm=0の場合と同様に高い値を持つことが知られており、そのピークを検出することにより、繰り返しを見つけることが可能となる。
 自己相関を用いることにより、信号に含まれる繰り返しパターンを探し、ノイズに含まれる周期的な信号を抽出することが容易となる。
 このように、本発明の最良の実施の形態においては、様々なオーディオ信号の特徴を、自己相関関数から抽出されるファクターによって表すことができる。
 次に、DTWを用いたリズム関数の類似度の算出処理を説明する。この処理は、図12のステップS337に相当する。
 本発明の最良の実施の形態では、時刻tから一定時間の信号を用いて算出される上記の自己相関関数を時刻tにおけるリズム関数とし、楽曲間の類似度算出に利用する。リズム関数は、複数の周波数域において音量が増加する時刻の周期を表現するため、複数の楽器音によるリズムを含む。このため、本発明の最良の実施の形態では、局所的なリズムから大域的なリズムを含む複数のリズムを用いて楽曲の類似度算出を可能とする。
 次に、得られたリズム関数を用いて楽曲の類似度を算出する。そこで、まずリズムの類似度について考察する。楽曲におけるリズムは、演奏者や編曲者によって変動する。このため、同一の楽曲であっても、楽曲の全体、または一部が異なる速度で演奏される場合が存在する。このため、リズムに基づいて楽曲間の類似度を定義するには、リズムの変動を許容する必要がある。そこで、本発明の最良の実施の形態では、リズムに基づく類似度の算出に、メロディーに基づく類似度と同様にDTWを利用する。これにより、本発明の最良の実施の形態では、演奏者や編曲者によってリズムが変更された楽曲を変更前の楽曲と同一と判断可能とする。また、楽曲自体が異なる場合にも、類似するリズムを示す楽曲を類似楽曲として判断可能とする。
 図46を参照して、自己相関関数の算出処理およびDTWを用いたリズム関数の類似度の算出処理を説明する。
 ステップS3401において、包絡線が入力されると、処理対象のシーンの楽曲と参照楽曲について、ステップS3402ないしステップS3404の処理が繰り返される。
 まず、ステップS3402において、対象シーンのオーディオ信号に基づいて出力された包絡線をアップサンプリングする。ステップS3403において、y(n)をuに対して全て加算し、y(n)を取得し、ステップS3404において、y(n)の自己相関関数Z(m)を算出する。
 一方、参照楽曲における自己関数Z(m)が算出される。ステップS3405において、処理対象シーンの楽曲における自己関数Z(m)をリズム関数として、参照楽曲における自己関数Z(m)との類似度を、DTWを適用して算出して、ステップS3406において、類似度を出力する。
(テキスト類似度算出部)
 次に、図1に示すテキスト類似度算出部25の処理を説明する。
 テキスト類似度算出部25は、テキストに注目して検索または分類するため、シーン分割部21で算出されるシーンに対して、類似度を算出する処理について説明する。本発明の最良の実施の形態では、データベース中に存在するシーン間について、音声認識処理を施し、得られた認識結果を用いてそれらの類似度を算出する。
 本発明の最良の実施の形態では、まず映像中のシーンを無音区間ごとに分割し、各々に対してメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient)を算出する。次に、算出したMFCCに対して音声認識処理を施し、得られた認識結果から名詞のみを抽出する。さらに、得られた名詞の頻度に対してTF-IDFの値を算出することで、テキストに注目したシーン間の類似度の算出を可能とする。
 本発明の最良の実施の形態では、話者が存在するシーンにおいて、音声認識処理を行い、抽出された名詞を用いて類似度を定義する。その際、シーン全体において抽出された名詞がどの程度特徴的であるかを定量化することで、シーンの内容を表現する名詞に基づいた類似度の算出が可能となる。これにより、映像信号や音響信号が類似しているシーンにおいても共通の話題を持つシーンの検索を実現することができる。
 本発明の最良の実施の形態に係るテキスト類似度算出部25について、具体的なアルゴリズムを説明する。
 本発明の最良の実施の形態では、音声認識により得られたテキスト情報のうち、名詞に着目して本発明のシーン間の類似度を算出する。ニュース等の話者が存在するシーンにおいては多くの場合、話者が発した名詞がその主題を表していると考えられる。そこで、本発明の最良の実施の形態では、名詞の情報を用いてシーン間の類似度を定義する。まず、我々は映像中の音響信号に対して、無音領域を削除し、1文毎に分割する。次に、分割された音響信号に対してメル周波数ケプストラム係数(MFCC)を算出し、これを用いて音声認識処理を行う。
 さらに、得られた音声認識結果に対して形態素解析を施すことで名詞のみを抽出し、抽出した名詞とその頻度を表す特徴ベクトルをシーン毎に生成する。ここで本発明の最良の実施の形態においては、得られた特徴ベクトルに対してTF-IDF法を適用することで、シーンを特徴づける名詞が大きな値を持つように特徴ベクトルを変換する。最後に、得られた特徴ベクトルを用いることで、シーンのテキスト情報に注目した類似度の算出を可能とする。以下、各処理について説明する。
 まず、音響信号の分割処理を説明する。この処理は、図13のステップS401に相当する。
 テキスト類似度算出部25は、処理対象となる動画データのシーンについて、無音区間を削除し、音響信号を分割する。本発明の最良の実施の形態では、
Figure JPOXMLDOC01-appb-M000060
のエネルギーに対し、判別分析を適用することで、無音区間を判定する。具体的には、以下の式により無音区間が判定される。
Figure JPOXMLDOC01-appb-M000061
ただし、しきい値T判別分析の解として、以下の式により算出される。
Figure JPOXMLDOC01-appb-M000062
ここで、E(i)は信号y(i)のエネルギーy(i)をエネルギーの昇順に並べ替えたものを表す。(式6-1)は信号y(i)のエネルギーE(i)がしきい値T未満であれば、無音と判定することを意味している。以上の処理により、無音区間の削除と音響分割が行われる。
 つぎに、MFCCの算出処理を説明する。この処理は、図13のステップS402に相当する。
 人間の聴覚は周波数成分に対し、メル尺度と呼ばれる、対数に近い非線形な特性を示すことが知られている。また音声認識においても、音響特徴量としてメルスケール変換したケプストラムを用いることにより、メル変換を行わなかった場合に比べ、認識性能が向上することが確かめられている。MFCCは以下の手順により算出される。
1)スペクトルの算出
 与えられた信号y(n)(音響信号の分割について上述したy(i)に対応)に、長さNの分析窓を掛けることで以下のように信号系列y(m;l)を取り出す。
Figure JPOXMLDOC01-appb-M000063
ここで、添え字lは信号の切り出し位置に対応する。(式6-2)より、長さNの音声信号系列y(n)(n=1,・・・・N)が間隔Tで得られる。また、窓関数w(n)としては以下で示すハミング窓やハニング窓がしばしば用いられる。
Figure JPOXMLDOC01-appb-M000064
(式6-3)によって得られた音声信号系列の短時間フーリエスペクトルは、離散フーリエ変換(DTFT)により以下で与えられる。
Figure JPOXMLDOC01-appb-M000065
実際の処理では、離散フーリエ変換(DFT)をその高速な算出法であるFFTを用いて算出することが一般的である。
2)メル変換
 つぎに、上記1)スペクトルの算出で得られたY(f)のパワースペクトルP(f)に対し、周波数軸fを人間の聴覚特性にあったメル周波数軸Mへ変換する。変換は以下の式により行われる。
Figure JPOXMLDOC01-appb-M000066
3)バンドパスフィルタの適用
 (式6―6)により得られたパワースペクトルP(M)に対し、三角関数のバンドパスフィルタΨ(M)を畳み込むことでθ(M)とする。バンドパスフィルタの畳み込みにより、重要な帯域のパワースペクトルθ(M)(k=1,・・・・・,K)が得られる。この畳み込みの式を以下に表す。
Figure JPOXMLDOC01-appb-M000067
ただし、Kはバンドパスフィルタの数を表す。
4)MFCCの算出
 上記3)バンドパスフィルタの適用で算出されたθ(M)を用いて以下の式によりMFCCを算出する。
Figure JPOXMLDOC01-appb-M000068
以上のようにして算出されたMFCCを用いて、図13のステップS403に相当する音声認識処理を行う。
 つぎに、MFCCの算出処理を説明する。この処理は、図13のステップS403に相当する。
 図47に連続音声認識の基本原理を示す。ここで、音響モデルは音素(ローマ字1文字にほぼ相当)や音節(かな1文字に相当)の周波数パターンを保持し、入力音声とマッチングするものである。単語辞書は認識対象の語彙とその発音を規定し、ここで規定されているもののみがマッチングの対象となる。文字認識と異なり、文字を認識してから単語を照合するのでなく、単語辞書を照合しながら文字を認識する。言語モデルは、単語の連鎖を規定するものであり、品詞と品詞の繋がりについて照合が行われる。図47における探索部分のモジュールは、与えられた音響モデルや言語モデルを用いて、入力音声χを単語列Wに認識するものである。
 次に、図47で示した音声認識の原理を説明する。音声認識は、入力音声χに対する事後確率p(W|X)が最大となる単語列Wを見つける問題として定式化できる。事後確率p(W|X)を直接計算することは非常に困難であるため、ベイズ則により以下のように書き換える。
Figure JPOXMLDOC01-appb-M000069
(式6-9)の分母は、Wの決定に影響しない正規化係数であるため、Wの推定の際には無視することができる。
1)音声認識における言語モデル
(式6-9)のp(W)は、ある単語列Wのパターンが生起する確率であり、これは(音声χとは無関係の)言語的な確からしさを表す。音声認識では、日本語で使用される単語の統計量や、「私」の次には「は」や「の」が続きやすいといった統計量に基づいて確率を推定する。言語モデルの適用は、通常先頭の単語から逐次的に行われ、単語列W=(w,w,・・・,w)(wは各単語)に対して、次式のようになる。
Figure JPOXMLDOC01-appb-M000070
ただし、計算量を抑えるため一般にp(w|w,・・・,wi-1)を直近のN単語連鎖p(w|w1-N+1,・・・,wi-1)で近似して用いる。これを単語N-gramモデルと呼び、N=2(2単語連鎖)の場合をバイグラム、N=3(3単語連鎖)の場合をトライグラムと呼ぶ。本発明の最良の実施の形態では、2回に分けて探索するが、第1パスでは入力音声に対してバイグラムを用いて比較的簡単で高速な音声認識処理を行い、次の第2パスでは逆向きのトライグラムを用いて最尤解を探索し、最終的な認識結果を決定する。
2)音声認識における音響モデル
 これに対し、(式6-9)のp(W|X)は単語列Wから音声のパターンXが生起する確率であり、音響的なモデルによるマッチングに基づいて評価する。こちらが通常のパターン認識処理に相当し、パターンの分布を推定したモデルを用いて行われるが、音声認識では時系列を柔軟に扱えるHMM(Hidden Markov Model)が主に用いられる。また、このモデルの単位としては、音素(ローマ字1文字にほぼ相当)が用いられる。この単語と音素表記の対応付けは単語辞書で記述する。ここで音素表記は、できるだけ実際の発音に忠実に記述される。つまり、「京都」は正書法では「きょうと(ky o u t o)」と書かれるが、一般に「きょーと(ky o- t o)」のように発声されるため、そのように記述する。
 このようにして、単語列W= w,w,・・・,wが音素列(m,m,・・・,mに展開されるので、p(W|X)は以下のように算出される。
Figure JPOXMLDOC01-appb-M000071
ここでp(x|m)は、通常音素単位の音響的特徴を表現したHMMを入力音声(の一部)xとマッチングすることにより算出される。音素は連続的に発声されるので、各音素の音響的特徴が前後の音素によって大きく変動する。そのため、前後の音素に応じて別のテンプレートを用意するのがトライフォンモデルである。例えば、先行母音が/i/で後続の母音が/a/の場合の子音/k/はi-k+aのように表記される。ただしこれは、i-k+aの三つ組全体に対するテンプレートではなく、あくまで子音/k/に対するテンプレートである。したがって、「会社(かいしゃ)」という単語に対するトライフォンによる表記は、「k+a k-a+i a-i+sh i-sh+a sh-a」のようになる。
 以上のように定義されたp(W)、p(W|X)を用いて(式6-9)を解くことで、音声認識結果Wが得られる。
 つぎに、音声認識結果に対する名詞の抽出処理を説明する。この処理は、図13のステップS404に相当する。
 音声認識結果から、シーン毎に名詞を抽出し、その頻度を得る。入力文(w1.n=w,w,・・・,w)が与えられたとき、事後確率P=(s1.n|w1.n)が最大となる名詞・助詞などの品詞列(s1.n=(s,s,・・・,s)を見つける問題として以下のように定式化する。
Figure JPOXMLDOC01-appb-M000072
ただし、s,sn+1はそれぞれ文頭および文末を意味する特別な品詞を表す。ここで、(式6-12)のそれぞれの項を以下のように簡単化する。
Figure JPOXMLDOC01-appb-M000073
Figure JPOXMLDOC01-appb-M000074
よって、(式6-12)は以下のように簡単化される。
Figure JPOXMLDOC01-appb-M000075
また、(式6-15)中の確率を以下の式で見積もる。
Figure JPOXMLDOC01-appb-M000076
ただし、C(w,s)は単語wの品詞がsとして出現する回数、C(s)は品詞sが出現する回数、C(s,si+1)は品詞sの直後に品詞si+1が出現する回数を表す。
 上記の(式6-15)の最適化問題を解くことで、形態素解析が実現され、音声認識結果から名詞を抽出することが可能となる。
 つぎに、TF-IDF法を用いた類似度算出について説明する。
 まず、各シーンに含まれるテキストのTF-IDFの算出処理を説明する。この処理は、図13のステップS405に相当する。
 TF-IDF法は、あるシーン中に出現するそれぞれの単語に対して、そのシーンを特徴づける度合いを算出する手法である。TF-IDF法では、単語が特徴的である度合いを以下の式により算出する。
Figure JPOXMLDOC01-appb-M000077
 上式により算出されるTFIDF(t,S)の値は、TF(t,S)が大きくDF(t)が小さいほど大きくなる。つまり、単語tがシーンS中に多く出現し、他のシーン中にあまり出現しなければ、TFIDF(t,S)の値は大きくなる。
 ここで、シーン中の単語の総数が多い場合にはTFIDFが大きくなりやすいため、シーン間でTFIDFの値を比較する際には正規化した値を用いることが望ましい。そこで、TFIDFの値を以下の式により正規化する。
Figure JPOXMLDOC01-appb-M000078
ここでTは、全シーン中に出現する単語の種類の数である。
 つぎに、各シーン間のテキストに基づいた類似度算出処理を説明する。この処理は、図13のステップS406に相当する。
 TF-IDF法により算出された単語の重みを用いて、シーンS,S(m,n=1,2,・・・,N)間における類似度を以下の式により算出する。
Figure JPOXMLDOC01-appb-M000079
得られた類似度sim(S,S)からシーンS,S間におけるテキストの類似度d(m,n)を次式により算出する。
Figure JPOXMLDOC01-appb-M000080
(検索部および表示部)
 検索部26は、クエリ動画データと類似する動画データを検索する。検索部26は、クエリ動画データと各シーンとのビデオ信号類似度、オーディオ信号類似度およびテキスト類似度の各類似度のうち、一つ以上に基づいて、クエリ動画出たと各シーンの類似度Dを算出する。この類似度Dは、各パラメータについて設定された重みが考慮されても良い。検索部26は、類似度Dの高いシーンを、検索結果として出力する。
 表示部29は、検索部26による検索結果を表示するとともに、映像の再生、検索、および、検索または分類結果の可視化を実現するユーザインターフェースである。表示部29は、検索結果のシーンのサムネイルを表示する。表示部29のユーザインターフェースは、下記の各機能を有していることが好ましい。
・映像の再生
 動画データベース11に記憶されたの映像データを任意の位置に配置し再生する。このとき、再生中の映像の現在のフレーム位置より後方にあるフレームの画像を、3次元空間上で、映像の後方に配置し表示する。
 それぞれの画像を配置する位置を常に更新することで、画像が奥から手前に向かって流れているような視覚効果を得ることができる。
・シーン単位の頭出し
 シーン分割部21によって分割されたシーンを単位とした頭出しを行う。ユーザの操作により再生中のシーンの前後シーンの開始位置へ動画像のフレーム位置を移動する。
・ 検索結果の表示
 ユーザによって映像の再生中に検索の操作がなされると、検索部26によって類似シーンを検索し、検索結果を表示する。類似シーンの検索は、分類部22によって求められた類似度に基づいて行われる。表示部29は、クエリシーンとの類似度が一定の閾値よりも小さいシーンを、動画データベース11から抽出して、検索結果として表示する。
 表示する際はクエリシーンの表示位置を原点とした3次元空間で表示する。このとき検索結果の各シーンについて、類似度と対応した座標をそれぞれのシーンに与える。それらを、図48に示す透視変換を行うことにより、検索結果の各シーンの表示位置および大きさを決定する。
 ただし、分類部22のビデオ信号類似度算出部23において映像情報に注目した分類のアルゴリズムを用いた場合、3次元空間上の軸は、3次元DTWによって得られる3つの座標となる。また、分類部22のオーディオ信号類似度算出部24において音楽情報に注目した分類のアルゴリズムを用いた場合、3次元空間上の軸はそれぞれ、ベース音に基づく類似度、他の楽器に基づく類似度、リズムに基づく類似度となる。また、分類部22のテキスト類似度算出部25においてテキストに注目した分類のアルゴリズムを用いた場合、オーディオ信号類似度算出部24において音楽情報に注目した分類のアルゴリズムによる類似度と、ビデオ信号類似度算出部23において映像情報に注目した分類のアルゴリズムによる類似度とを合わせて、3次元空間上の軸が設定される。具体的には、3次元空間上の軸はそれぞれ、ビデオ信号に基づく類似度(動画像の類似度)、オーディオ信号に基づく類似度(音の類似度)およびテキストに基づく類似度(テキストの類似度)となる。
 これにより、検索結果の中でクエリシーンとより類似したシーンがクエリシーンの近くに表示される。また、表示された検索結果の映像に対しても同様に、その映像を選択することによって、その時刻に再生中のシーンをクエリとした類似シーンを検索することができる。
 また、図49に示すプリファランスボードを用いて、ユーザの嗜好を決定しても良い。図49に示すプリファランスボードでは、逆三角形の図形が設けられており、各頂点に、動画像の類似度、音の類似度およびテキストの類似度が関連づけられている。プリファランスボードは、図3に示す嗜好入力部A201に相当する。ユーザがこの逆三角形の図形中のいずれかを選択することにより、その選択された座標位置に基づいて、動画像(ビデオ)の類似度、音(オーディオ)の類似度およびテキストの類似度のそれぞれの重み付けを決定する。これにより、複数の類似度を考慮して、類似する動画像データを検索することができる。
 具体的には、本発明の最良の実施の形態においては、分類部22によって付与された類似度に基づいて、プリファランスボードで指定された重み付けに基づいて、検索部26が、複数の動画データからクエリ画像データに類似する動画データを検索する。例えば、プリファランスボードの中心が選択されると、ビデオ信号類似度、オーディオ信号類似度およびテキスト類似度のそれぞれが等しく評価されて、類似する動画像データが検索される。
 ここで、分類部22によって付与される類似度は、ビデオ信号類似度算出部23によって算出されたビデオの類似度d、オーディオ信号類似度算出部24によって算出されたオーディオの類似度d、ベース音に基づく類似度d、非ベース音に基づく類似度dnbおよびリズムに基づく類似度d、テキスト類似度算出部25によって算出されたテキストの類似度dである。
 以上の類似度を用いて、最終的な類似度Dを算出する。本発明の最良の実施の形態では、プリファランスボードを用いることで、ビデオやオーディオなどユーザが重要視する要素を自由に設定することが可能である。そのため、よりユーザが所望するようなシーンの検索が実現できる。
 プリファランスボードは、例えば、図49に示すように逆三角形の形状を有する。ボードの三隅においてそれぞれの重みが最大となるように重みを設定する。得られる重みの線形和により最終的な類似度Dを算出する。
 図49に示す例において、プリファランスボード内の選択点Pがユーザにより選択された場合、各頂点からの距離の逆数である[0,1]の重みを算出する。ここで算出される重みは、ビデオの類似度dに対する重みw、オーディオの類似度dに対する重みw、テキストの類似度dに対する重みwを算出である。
 このとき、最終的な類似度Dは、下記の(式7-1)により算出される。
Figure JPOXMLDOC01-appb-M000081
 (式7-1)は、類似度Dは、ビデオ信号の類似度のP乗、オーディオ信号の類似度のP乗およびテキストの類似度のP乗を加算したものをP乗根したものである。このとき、各類似度をP乗したものに、それぞれの重みが乗算される。(式7-1)において表現される類似度Dの具体的な算出式について、以下の通りに説明する。
 市街地距離(マンハッタン距離)の概念で類似度Dを算出する場合、類似度Dは、(式7-2)により表現される。
Figure JPOXMLDOC01-appb-M000082
 図50を参照して、(式7-2)を用いて類似度Dを表現した画面例を説明する。図50において、類似度Dが同一の動画データのシーンのサムネイルは、図50中の太線部および太線破線部のいずれかに配置される。座標の中心には、クエリシーンのサムネイルが表示され、クエリシーンのサムネイルを中心にする正八面体の表面上に、類似度Dが同一の各シーンのサムネイルが表示される。なお、ここでの説明は三次元空間に基づいて表現するが、表示画面に表示する際は、二次元空間に変換されて表現される。
 ユークリッド距離の概念で類似度Dを算出する場合、類似度Dは、(式7-3)により表現される。
Figure JPOXMLDOC01-appb-M000083
 類似度Dが算出されると、動画データベース11に格納された各動画データから、クエリシーンとの類似度Dが所定の閾値内となる複数のシーンが選択される。表示部29は、この複数のシーンに対して、可視化のための配置位置を、下記の(式7-4)により算出する。
Figure JPOXMLDOC01-appb-M000084
 さらに、決定された配置位置から、各シーンを透視変換に基づいて3次元空間上に配置する。
 ここで、上記の(式7-4)における計算式は一例であって、他の計算式により座標を決定しても良い。
 図51を参照して、(式7-3)を用いて類似度Dを表現した画面例を説明する。図51において、類似度Dが同一の動画データのシーンのサムネイルは、図51中の太線部および太線破線部のいずれかに配置される。座標の中心には、クエリシーンのサムネイルが表示され、クエリシーンのサムネイルを中心にする球体の表面上に、類似度Dが同一の各シーンのサムネイルが表示される。なお、ここでの説明は三次元空間に基づいて表現するが、表示画面に表示する際は、二次元空間に変換されて表現される。
 チェス盤距離の概念で類似度Dを算出する場合、類似度Dは、(式7-5)により表現される。
Figure JPOXMLDOC01-appb-M000085
 図52を参照して、(式7-5)を用いて類似度Dを表現した画面例を説明する。図52において、類似度Dが同一の動画データのシーンのサムネイルは、図52中の太線部および太線破線部のいずれかに配置される。座標の中心には、クエリシーンのサムネイルが表示され、クエリシーンのサムネイルを中心にする立方体の表面上に、類似度Dが同一の各シーンのサムネイルが表示される。なお、ここでの説明は三次元空間に基づいて表現するが、表示画面に表示する際は、二次元空間に変換されて表現される。
 図53を参照して、クエリシーンデータD101と、クエリシーンデータD101との類似度Dが所定の閾値内となる複数のシーンデータD102およびD103のそれぞれについて、決定された座標を説明する。
 クエリシーンデータD100と類似シーンデータD101との類似度にもとづいて、(式7-2)からrが算出され、座標(x、y)に類似シーンデータD101のサムネイルが表示される。同様に、クエリシーンデータD100と類似シーンデータD102との類似度にもとづいて、(式7-2)からrが算出され、座標(x、y)に類似シーンデータD102のサムネイルが表示される。
 なお、オーディオの類似度dは上記のオーディオに関する類似度d、d、dnb、dとオーディオクラスへの帰属確率を用いて、次に示すいずれかの手法により算出される。
1)手法1
 手法1では、オーディオクラスへの帰属確率を用いて類似度dを以下の式により適応的に設定する。
Figure JPOXMLDOC01-appb-M000086
ただし、w、w、wnb、wは全て[0,1]の重み係数を表し、Pl,Plはそれぞれ音楽のオーディオクラスへの帰属確率、音響(スピーチ)に関するオーディオクラスへの帰属確率を表す。上式を用いることで、オーディオクラスへの帰属確率を用いて対象とするシーンを構成する音の信号が音楽かそうでないかを判断し、音の類似度を適切に設定することが可能となる。
2)手法2
手法2では、オーディオクラスへの帰属確率を類似度dの算出に直接用いる。手法2による類似度dは以下の式により算出される。
Figure JPOXMLDOC01-appb-M000087
上式を用いることで、音響と音楽が混在しているシーンにおいても、これらを考慮した音の類似度の設定が実現できる。
 さらに、本発明の最良の実施の形態では、個人の好みをモデル化するためのプリファランスボードを準備しているため、得られる操作履歴により学習するシステムを導入することで、よりユーザ個人の好みに合わせた映像の検索が可能となると考えられる。
 このように本発明では、映像情報に注目した分類、音楽情報に注目した分類およびテキストに注目した分類のそれぞれについて、表示装置に表示する座標を変更させることにより、さらに分類パラメータを重み付けした分類結果を取得することができる。例えば、音楽情報に着目した分類について、リズムに基づく類似度が高い座標には、リズムの類似度が高く、ベース音や他の楽器に基づく類似度が低いシーンが表示される。
(効果)
 このような本発明の最良の実施の形態に係る動画検索装置1によれば、映像の構成要素であるオーディオ信号およびビデオ信号を用いて映像間の類似度を算出し、それらの分類結果を3次元の空間上に可視化することができる。本発明の最良の実施の形態では、映像に対して楽曲に基づいた類似度の算出、および音響とビジュアル信号の双方に基づいた類似度の算出、テキストに基づいた類似度の算出の3つの類似度算出機能を持ち、映像の異なる要素に注目することで、ユーザの好みに応じた検索モードを実現することができる。さらに、この機能を用いることで、クエリ映像を与えた場合に自動で類似映像の検索をすることができる。また、クエリ映像が存在しない場合、データベース中の映像を自動的に分類し、注目する映像に対して類似する映像をユーザに呈示することができる。
 さらに、本発明の最良の実施の形態では映像間の類似度に基づいて、3次元の空間上に映像を配置することで、空間の距離によって映像の類似性を理解することが可能なユーザインターフェースを実現することができる。具体的に、映像情報に注目した検索・分類のアルゴリズムを用いた場合、3次元空間上の軸は3次元DTWによって得られる3つの座標とし、音楽情報に注目した検索・分類のアルゴリズムを用いた場合、ベース音に基づく類似度、他の楽器に基づく類似度、リズムに基づく類似度とした。これにより、ユーザは3次元空間上において、映像および音楽のどの部分が似ているかを主観的に評価することができる。
 図54ないし図58を参照して、本発明の実施の形態に係る動画検索装置によるシミュレーション結果を説明する。このシミュレーションにおいては、動画データベース11に、クエリシーンを含む動画データと、このクエリシーンにテキストが類似するシーンを含む約10分間の複数の動画データとを記憶している。本シミュレーションにおいては、このクエリシーンに類似するシーンを含む動画データを検索対象の動画データとし、この動画データに含まれる複数のシーンから、クエリシーンに類似するシーンを検索できるかをシミュレーションする。
 図54ないし図58は、分類部22および検索部26によるシミュレーション結果を示している。
 図54は、クエリシーンの動画データを示している。図54においては、クエリシーンの動画データについて、所定時間間隔でフレームの画像データを表示している。図54に示すクエリシーンは、Aチャンネルで2008年8月1日に放送されたものである。図54に示すクエリシーンについて、テキスト類似度算出部25は、このクエリシーンを特徴づける検出単語として、「ゼネコン、祖父、見解、完成、鉄筋、返事、八月、高層、不足、マンション」を出力する。
 図55ないし図58は、図54に示すクエリシーンにテキストが類似するシーンとして検出された動画データである。
 図55に示す動画データは、Aチャンネルで2008年7月31日に放送されたものである。図55に示す動画データについて、テキスト類似度算出部25は、この動画データを特徴づける検出単語として、「建物、発覚、マンション、工事、不足、住宅、部分、中絶、フロアー、同級」を出力する。またテキスト類似度算出部25は、図55に示す動画データとクエリデータとの類似度に基づいて、距離を、「0.632959」と算出した。ここで「距離」は「0」であるほど類似することを示す。
 図56に示す動画データは、Bチャンネルで2008年8月2日に放送されたものである。図56に示す動画データについて、テキスト類似度算出部25は、この動画データを特徴づける検出単語として、「マンション、説明、不動産、鉄筋、検索、購入、人達、発覚、建設、担当」を出力する。またテキスト類似度算出部25は、図56に示す動画データとクエリデータとの類似度に基づいて、距離を、「0.754549」と算出した。
 図57に示す動画データは、Aチャンネルで2008年8月4日に放送されたものである。図57に示す動画データについて、テキスト類似度算出部25は、この動画データを特徴づける検出単語として、「マンション、購入、説明、認識、案内、以下、F1、品数、恋愛、氾濫」を出力する。またテキスト類似度算出部25は、図57に示す動画データとクエリデータとの類似度に基づいて、距離を、「0.918386」と算出した。
 図58に示す動画データは、Aチャンネルで2008年8月2日に放送されたものである。図58に示す動画データについて、テキスト類似度算出部25は、この動画データを特徴づける検出単語として、「共同、安全、結構、影響、点検、道路、電源、コンクリート、栗本、構造」を出力する。またテキスト類似度算出部25は、図58に示す動画データとクエリデータとの類似度に基づいて、距離を、「0.937752」と算出した。
 テキスト類似度算出部25は、図54に示すクエリシーンにテキストが最も類似するシーンとして、図55に示すシーンを出力した。さらに、テキスト類似度算出部25は、2番目に類似するシーンとして図56に示すシーンを、3番目に類似するシーンとして図57に示すシーンを、4番目に類似するシーンとして図58に示すシーンを、それぞれ出力した。図54ないし図58に示す各シーンは、同じテーマのシーンであり、放送日や放送チャンネルが異なる場合でも、テーマが類似しているシーンを検索できることがわかる。
 このように、本発明の実施の形態に係る動画検索装置によれば、動画データのビデオ信号を用いて、テキストが類似する画像を高精度に検索することができる。これにより、放送日や放送チャンネルが異なる番組においても、同じテーマを扱ったニュース等を容易に検索することができる。
 さらに、本発明の実施の形態に係る動画検索装置によれば、図3に示すように、映像間の類似度に基づいて、3次元の空間上に映像を配置し、空間の距離によって映像の類似性を理解することが可能なインタフェースとなっていることが確認できる。さらに図3に示すように、個人の好みをモデル化するための嗜好入力部A201を準備しているので、ユーザの嗜好を反映した類似画像を検索することができる。ここで、嗜好入力部A201に対するユーザの操作履歴を蓄積して記憶するとともに、得られる操作履歴により学習するシステムを導入することで、よりユーザ個人の好みに合わせた映像の検索が可能となる。
 このように、本発明の実施の形態に係る動画検索装置によれば、映像中の音響信号に対し、MFCCを算出して音声認識を行い、認識結果に対して形態素解析およびTF-IDFを用いることで、テキスト情報に注目した映像間の類似度を算出することができる。したがって、算出される類似度を用いることで、クエリ動画像に関連する話題を含む映像を検索することができる。
 ここで、本発明の実施の形態に係る動画検索装置によれば、映像を検索する際に、組み込まれた現状の音声認識の脆弱性を補うため、単純に映像から抽出されるテキストの情報のみを用いるのではなく、動画像信号や音響信号も併せて用いることで、音声認識によるテキスト情報の抽出精度が低下した場合においても、クエリ映像に対しユーザの所望する映像を検索することができる。
 さらに、ユーザは嗜好入力部A201を通して「音」、「絵」および「テキスト」の3つの要素に対し自由に重みを設定し、検索を繰り返すことで、希望の映像にたどり着くことができる。これにより、ユーザが明確なクエリを持ち合わせていない場合においても、このような連想型の検索により、ユーザが所望する映像を獲得することができる。
 また、本発明の実施の形態に係る動画検索装置によれば、映像中に含まれるテキスト情報の抽出を可能としているため、抽出されたテキスト情報を用いることでインターネット上のコンテンツとのハイパーリンクも可能となる。さらに、本発明の実施の形態に係る動画検索装置によれば、既存の静止画像からの顔領域検出器の動画像への適用による顔領域の抽出精度向上や映像の類似度に注目した同一物体が撮像されたショットやシーンを抽出することで、映像からの「顔領域の自動検出」や映像に対する「自動メタデータ付与」等が可能となる。
(その他の実施の形態)
 上記のように、本発明の最良の実施の形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
 例えば、本発明の最良の実施の形態に記載した動画検索装置は、図1に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。
 本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

Claims (12)

  1.  動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置であって、
     クエリ動画データを含む動画データが記憶された動画データベースと、
     前記動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、
     前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のうちの音声信号をテキストデータに変換して、前記テキストデータにおける名詞の頻度から、前記シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出部
     を備えることを特徴とする動画検索装置。
  2.  前記テキスト類似度算出部は、前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のメル周波数ケプストラム係数を算出し、算出した前記メル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、前記テキストデータを形態素解析して名詞を抽出し、抽出された前記名詞の頻度に基づいて、前記シーンの特徴となる検出単語を出力して前記テキストの類似度を算出する
     ことを特徴とする請求項1に記載の動画検索装置。
  3.  前記シーン分割部によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部
     を更に備えることを特徴とする請求項1に記載の動画検索装置。
  4.  前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部
     を更に備えることを特徴とする請求項1に記載の動画検索装置。
  5.  前記シーン分割部によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、
     前記シーン分割部によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、
     前記ビデオ信号類似度算出部によって検索された各シーンのビデオ信号の類似度、前記オーディオ信号類似度算出部によって検索された各シーンのオーディオ信号の類似度および前記テキスト類似度算出部によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、前記クエリ動画データとの類似度を算出する類似度算出部と、
     前記類似度算出部で算出された前記クエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索部と、
     前記シーン検索部によって検索された各シーンについて、前記類似度算出部で取得された類似度に対応する座標を算出して、表示装置に表示する表示部
     を更に備えることを特徴とする請求項1に記載の動画検索装置。
  6.  前記シーン分割部は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する
     ことを特徴とする請求項1に記載の動画検索装置。
  7.  動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索プログラムであって、
     コンピュータを、
     動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、
     前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のうちの音声信号をテキストデータに変換して、前記テキストデータにおける名詞の頻度から、前記シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出手段
     として機能させることを特徴とする動画検索プログラム。
  8.  前記テキスト類似度算出手段は、前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のメル周波数ケプストラム係数を算出し、算出した前記メル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、前記テキストデータを形態素解析して名詞を抽出し、抽出された前記名詞の頻度に基づいて、前記シーンの特徴となる検出単語を出力して前記テキストの類似度を算出する
     ことを特徴とする請求項7に記載の動画検索プログラム。
  9.  前記シーン分割手段によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段
     としてさらに機能させることを特徴とする請求項7に記載の動画検索プログラム。
  10.  前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段
     としてさらに機能させることを特徴とする請求項7に記載の動画検索プログラム。
  11.  前記シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、
     前記シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、
     前記ビデオ信号類似度算出手段によって検索された各シーンのビデオ信号の類似度、前記オーディオ信号類似度算出手段によって検索された各シーンのオーディオ信号の類似度および前記テキスト類似度算出手段によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、前記クエリ動画データとの類似度を算出する類似度算出手段と、
     前記類似度算出手段で算出された前記クエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索手段と、
     前記シーン検索手段によって検索された各シーンについて、前記類似度算出手段で取得された類似度に対応する座標を算出して、表示装置に表示する表示手段
     としてさらに機能させることを特徴とする請求項7に記載の動画検索プログラム。
  12.  前記シーン分割手段は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する
     ことを特徴とする請求項7に記載の動画検索プログラム。
PCT/JP2009/067652 2008-10-09 2009-10-09 動画検索装置および動画検索プログラム WO2010041744A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-263171 2008-10-09
JP2008263171 2008-10-09

Publications (1)

Publication Number Publication Date
WO2010041744A1 true WO2010041744A1 (ja) 2010-04-15

Family

ID=42100690

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/067652 WO2010041744A1 (ja) 2008-10-09 2009-10-09 動画検索装置および動画検索プログラム

Country Status (1)

Country Link
WO (1) WO2010041744A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012137973A (ja) * 2010-12-27 2012-07-19 Internatl Business Mach Corp <Ibm> データを分類してアクセス制御を行う方法、並びにそのコンピュータ及びコンピュータ・プログラム
JP2017033437A (ja) * 2015-08-05 2017-02-09 三菱電機ビルテクノサービス株式会社 検索システム
WO2018109929A1 (ja) * 2016-12-16 2018-06-21 三菱電機株式会社 検索システム
CN108304506A (zh) * 2018-01-18 2018-07-20 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法
CN117459665A (zh) * 2023-10-25 2024-01-26 杭州友义文化传媒有限公司 视频剪辑方法、系统与存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008005167A (ja) * 2006-06-21 2008-01-10 Hokkaido Univ 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
WO2008016102A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation dispositif de calcul de similarité et dispositif de recherche d'informations
JP2008134725A (ja) * 2006-11-27 2008-06-12 Sharp Corp コンテンツ再生装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008005167A (ja) * 2006-06-21 2008-01-10 Hokkaido Univ 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
WO2008016102A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation dispositif de calcul de similarité et dispositif de recherche d'informations
JP2008134725A (ja) * 2006-11-27 2008-06-12 Sharp Corp コンテンツ再生装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930368B2 (en) 2010-12-27 2015-01-06 International Business Machines Corporation Categorizing data to perform access control
JP2012137973A (ja) * 2010-12-27 2012-07-19 Internatl Business Mach Corp <Ibm> データを分類してアクセス制御を行う方法、並びにそのコンピュータ及びコンピュータ・プログラム
KR102045161B1 (ko) * 2015-08-05 2019-11-14 미쓰비시 덴키 빌딩 테크노 서비스 가부시키 가이샤 검색 시스템
JP2017033437A (ja) * 2015-08-05 2017-02-09 三菱電機ビルテクノサービス株式会社 検索システム
WO2017022752A1 (ja) * 2015-08-05 2017-02-09 三菱電機ビルテクノサービス株式会社 検索システム
CN107851126A (zh) * 2015-08-05 2018-03-27 三菱电机大楼技术服务株式会社 检索系统
KR20180035854A (ko) * 2015-08-05 2018-04-06 미쓰비시 덴키 빌딩 테크노 서비스 가부시키 가이샤 검색 시스템
WO2018109929A1 (ja) * 2016-12-16 2018-06-21 三菱電機株式会社 検索システム
CN110383264B (zh) * 2016-12-16 2022-12-30 三菱电机株式会社 检索系统
JPWO2018109929A1 (ja) * 2016-12-16 2019-06-24 三菱電機株式会社 検索システム
CN110383264A (zh) * 2016-12-16 2019-10-25 三菱电机株式会社 检索系统
CN108304506B (zh) * 2018-01-18 2022-08-26 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN108304506A (zh) * 2018-01-18 2018-07-20 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法
CN117459665A (zh) * 2023-10-25 2024-01-26 杭州友义文化传媒有限公司 视频剪辑方法、系统与存储介质
CN117459665B (zh) * 2023-10-25 2024-05-07 杭州友义文化传媒有限公司 视频剪辑方法、系统与存储介质

Similar Documents

Publication Publication Date Title
JP5339303B2 (ja) 動画検索装置および動画検索プログラム
Tzanetakis et al. Marsyas: A framework for audio analysis
Kim et al. MPEG-7 audio and beyond: Audio content indexing and retrieval
Tzanetakis Manipulation, analysis and retrieval systems for audio signals
Zhang et al. Hierarchical classification of audio data for archiving and retrieving
Gerhard Audio signal classification: History and current techniques
WO2010041744A1 (ja) 動画検索装置および動画検索プログラム
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
CN106295717A (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
Tzanetakis et al. A framework for audio analysis based on classification and temporal segmentation
Gowrishankar et al. An exhaustive review of automatic music transcription techniques: Survey of music transcription techniques
Yasmin et al. Graph based feature selection investigating boundary region of rough set for language identification
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
Kadyan et al. Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation
Rao Accent classification from an emotional speech in clean and noisy environments
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition
Dhara et al. Automatic note transcription system for Hindustani classical music
Mores Vowel quality in violin sounds—A timbre analysis of Italian masterpieces
Ravichandran Tamil natural language voice classification using recurrent neural networks
CN111681674A (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
Hosain et al. Deep-Learning-Based Speech Emotion Recognition Using Synthetic Bone-Conducted Speech
Sankaye et al. Indian musical instrument recognition using modified LPC features
Laszko Word detection in recorded speech using textual queries
Shelke et al. An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement
Bouafif et al. Speech-Music-Noise Discrimination in Sound Indexing of Multimedia Documents.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09819277

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09819277

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP