WO2000048397A1 - Procede de traitement de signal et dispositif de traitement video/audio - Google Patents

Procede de traitement de signal et dispositif de traitement video/audio Download PDF

Info

Publication number
WO2000048397A1
WO2000048397A1 PCT/JP2000/000762 JP0000762W WO0048397A1 WO 2000048397 A1 WO2000048397 A1 WO 2000048397A1 JP 0000762 W JP0000762 W JP 0000762W WO 0048397 A1 WO0048397 A1 WO 0048397A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
segment
audio
segments
sub
Prior art date
Application number
PCT/JP2000/000762
Other languages
English (en)
French (fr)
Inventor
Toby Walker
Hiroshi Matsubara
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US09/673,232 priority Critical patent/US6710822B1/en
Priority to EP00902920A priority patent/EP1073272B1/en
Publication of WO2000048397A1 publication Critical patent/WO2000048397A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the present invention relates to a signal processing method for measuring the similarity between arbitrary different segments constituting a signal, and different arbitrary images and Z constituting a video signal.
  • the present invention relates to a video and audio processing device for measuring similarity between audio segments.
  • the similarity of contents is first measured numerically.
  • the similarity is measured, and the items are ranked in order of similarity based on the similarity metric for the target item.
  • the resulting list the most similar ones will appear near the beginning of the list.
  • the above-described search technique based on key frames is limited to a search based on similarity of shots.
  • a typical 30-minute TV program contains hundreds of shots, and thus the conventional search technique described above requires a large number of extracted shots. Therefore, it was a heavy burden to search such a huge number of data.
  • the present invention has been made in view of such circumstances, and solves the above-described problems of the conventional search technique, and provides a signal for performing a search based on the similarity of various levels of segments in various video data. It is an object to provide a processing method and a video / audio processing device.
  • a signal processing method includes, among sub-segments included in a segment that constitutes a supplied signal, a representative segment that is a sub-segment representing the content of the segment;
  • Such a signal processing method according to the present invention extracts signatures on segments.
  • the video and audio processing apparatus includes a video and / or audio sub-segment included in a video and / or audio segment included in a supplied video signal.
  • a video and audio processing device that extracts a signature defined by a weighting function to be assigned, and is a target of the signature among the groups obtained by classifying video and Z or audio subsegments based on arbitrary attributes. And a means for selecting one representative segment from the selected group and calculating a weight for the obtained representative segment.
  • FIG. 1 is a diagram for explaining the structure of video data applied in the present invention, and is a diagram for explaining the structure of modeled video data c
  • FIG. 2 is a video of a shot It is a figure explaining a frame signature.
  • FIG. 3 is a diagram illustrating a shot signature for a scene.
  • FIG. 4 is a diagram for explaining an audio segment signature for a scene.
  • FIG. 5 is a diagram illustrating a shot signature for a television program.
  • FIG. 6 is a block diagram illustrating a configuration of a video and audio processing device shown as an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a series of steps in extracting a signature in the video / audio processing apparatus.
  • FIG. 8 is a diagram illustrating a scene applied to specifically explain a series of steps in FIG.
  • FIG. 9 is a diagram illustrating r segments selected from the scene shown in FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • An embodiment to which the present invention is applied is a video and audio processing apparatus that automatically extracts data representing an arbitrary set in video data in order to automatically search for and extract desired contents from video data. .
  • a description will be given of video data targeted in the present invention.
  • the video data targeted in the present invention is modeled as shown in FIG. 1, and has a hierarchical structure at the level of frames, segments, and programs.
  • the video data is composed of segments consisting of a plurality of hierarchies between a program representing the entire video data, which is the highest layer, and a series of frames, which are the lowest layer.
  • segments in video data there are those formed from a series of continuous frames, and those obtained by organizing such a sequence of frames into a scene based on a certain relation. Some scenes are further organized based on certain relationships. Also, in a broad sense, a single frame is a type of segment You can think.
  • a segment in video data is a general term for a group of video data, including programs and frames, irrespective of the level of the hierarchy. It is defined as a continuous part.
  • the segment may be an intermediate structure having some meaning, such as a structure formed from a series of the above-described continuous frames or an intermediate structure with the scene.
  • segment X for example, if any segment X is completely contained within a different segment Y, then we define segment X to be a subsegment of segment Y.
  • Such video data generally includes both video and audio information. That is, in this video data, the frame includes a video frame that is a single still image and an audio frame that represents audio information sampled in a short period of time, generally several H ⁇ to several hundred milliseconds.
  • the segment includes a video segment and an audio segment.
  • a segment is a so-called shot consisting of a series of video frames that are continuously shot by a single camera, and the shots are grouped into meaningful units using feature values representing these features.
  • Including video segments such as scenes.
  • segments can be formed, for example, by delimiting silence periods in video data detected by generally well-known methods,
  • the video and audio processing apparatus shown as an embodiment to which the present invention is applied automatically extracts signatures, which are general features that characterize the contents of segments in the video data described above. It compares the similarity of two signatures and is applicable to both video and audio segments. The resulting similarity metric provides a generic tool for searching and classifying segments.
  • a signature generally identifies a certain object, and is some data that identifies the object with high accuracy using less information than the object.
  • fingerprints are one type of human signature. That is, comparing the similarity of two sets of fingerprints attached to a certain object makes it possible to accurately determine whether or not the same person has given the fingerprint.
  • signatures for video and audio segments allow video and audio segments to be identified.
  • this signature is given as a weighted set of the above-described sub-segments obtained by dividing the segment.
  • a signature S for a certain segment X is, as described later, a representative segment R whose elements are sub-segments representing the segment X, and a weighting function that assigns weight to each element of the representative segment R.
  • R, W> is defined as W.
  • the term “repre sentative frame”, which is a term representing a representative frame, is extended to represent the representative segment as an r segment. From this, the set of all r segments included in a signature is called the r segment of that signature. Also, the type of the r segment is called the r type of the signature. And if it is necessary to specify the rtype of a signature, prefix it with the term "signature". For example, a video frame signature indicates a signature whose r segments are all video frames. Further, the shot signature indicates a signature whose r segment is the above-described shot. On the other hand, a segment described by a certain signature S is referred to as a target segment of the signature S. Signatures can use r segments that include video segments, audio segments, or a combination of both.
  • Such a signature has several properties that effectively describe the segment.
  • signatures are most important in that they not only describe short segments, such as shots, but also the entire scene or video data. — Allows you to describe longer segments, such as entire data.
  • Signature makes it possible to characterize a segment with a small amount of data.
  • the weight assigned to each r-segment indicates the importance or relevance of each r-segment and allows the segment to be identified to be identified.
  • a segment can be decomposed into a set of simpler subsegments, those subsegments can be used as r segments.
  • Such signatures can be created arbitrarily by the user via a computer-assisted user interface, but for most applications it is desirable to extract them automatically.
  • the video frame signature for a shot is a signature whose r segment is a still image.
  • One way to create such a signature is to use the keyframes for each shot as the r-segment, and use the in-shot video frames that almost match the keyframes in the shot. All video frames This is to use the ratio to the system weight as the weight.
  • the shot signature for the scene is a signature whose shot is a shot.
  • shots in a scene can be classified into n groups.
  • a signature consisting of n r segments can be created. That is, for each group, one shot is selected to behave as an r-segment, where weighting is applied to each r-segment. It can be given as the ratio of the number of shots that make up each group to the total number of shots.
  • signatures are not limited to using only visual information, and audio segment signatures for scenes can be cited as examples of signatures as shown in FIG.
  • the audio segment signature for a scene uses a set of audio segments as an r segment. For example, consider a scene consisting of multiple people talking to each other. In this case, if it is possible to automatically distinguish the speakers, a short speech segment for each speaker can be used as the r segment.
  • signatures can be used not only to describe short segments, but also to describe entire videos.
  • a particular TV program can be clearly distinguished from other TV programs.
  • Such a shot is used repeatedly in the television program. For example, a logo 'shot at the beginning of a news program as shown in FIG. 5 and a shot and a shot showing a newscaster are displayed. This corresponds to this. In this case, it is appropriate to assign the same weight to the logo shot and the newscaster shot, since the weighting indicates the importance of the shot.
  • the video and audio processing device 10 that automatically extracts such signatures and compares the similarity of the two signatures controls the operation of each unit and stores them in the ROM 12 as shown in FIG.
  • CPU Central Processing Unit
  • CPU 11 1 which is a means of executing segmented programs to extract segment signatures, programs executed by CPU 11 1 to extract signatures, numerical values used, etc.
  • Read Only Memory 12 which is a read-only memory for storing the input segment, and a function as a work area for storing the subsegment ⁇ , r segment, etc. obtained by dividing the input segment.
  • a RAM (Random Access Memory) 13 as a memory
  • HDD Hard Disk Drive
  • IZF signature An interface
  • the CPU 11 reads out and executes the program stored in the R ⁇ M 12, and performs a series of processes as shown in FIG. 7 to extract the signature. I do.
  • step S1 the video and audio processing device 10 divides a segment input via the YZF 15 into sub-segments.
  • the subsegment obtained here is r It becomes a candidate r segment that is a candidate for the segment.
  • the video / audio processing apparatus 10 does not particularly limit the method of dividing the segment into sub-segments, and may use any method as long as it is applicable. Such methods are highly dependent on the type of subsegment used.
  • a method of decomposing a segment into a smaller set of segments Specifically, for example, when the r segment is a video frame, the video / audio processing apparatus 10 can easily decompose the r segment, and a set of all video frames (still images) in the segment is a subsegment. Event candidate set. If the r-segment is a shot, the video-audio processing apparatus 10 may use, for example, “B.
  • the video / audio processing apparatus 10 may use, for example, the above-mentioned “D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Pare Technics 1 Report” or “S Pf eif fer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96,
  • the video and audio processing device 10 divides a segment into sub-segments irrespective of the type of the segment. If the segment is a frame, the video and audio processing device 10 There is no need to perform the splitting step.
  • step S2 the video and audio processing device 10 groups sub-segments similar to each other. That is, since a group of subsegments similar to each other is considered to best represent the content of the target segment, the video and audio processing apparatus 10 detects and groups subsegments similar to each other.
  • the sub-segments that are similar to each other indicate sub-segments that have a small value of the dissimilarity metric in the later-described feature amount of each sub-segment.
  • the video and audio processing device 10 does not particularly limit the method of grouping sub-segments similar to each other, and may employ any method that is applicable.
  • the video / audio processing apparatus 10 is well known, for example, as described in “L. Kaufman and PJ Roussee, Finding Groups in Data: An Introduction to Cluster Analysis, John-Wiley and sons, 1990”. Average direct cluster! ;.
  • features are the characteristics of segments An attribute of a segment that represents a feature and provides data for measuring the similarity between different segments.
  • the video / audio processing apparatus 10 does not depend on any specific details of the features, the characteristic quantities considered to be effective in the video / audio processing apparatus 10 include, for example, There are the following video features, audio features, and video / audio common features.
  • Color in a video is an important factor in determining whether two videos are similar. Judgment of similarity of images using color histograms is described in, for example, "G. Ahanger and TDC Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7: 28-4, It is well known, as described in 1996 ".
  • the color histogram is obtained by dividing a three-dimensional color space such as HSV or RGB into n regions and calculating the relative proportion of the appearance frequency of pixels in the video in each region. -And the obtained information gives the n-dimensional vector.
  • a color histogram can be directly extracted from the compressed data, for example, as described in U.S. Patent # 5,708,767.
  • the structure in which multiple similar segments intersect each other is a powerful indicator that it is a single structure. For example, in a conversation scene, the camera position alternates between two speakers, but the camera usually returns to approximately the same position when re-shooting the same speaker.
  • the correlation based on the reduced image of the delay-scale video is a good indicator of the similarity of the sub-segments.
  • the image is decimated and reduced to a grayscale image of size, and the image correlation is calculated using this.
  • small values of M and N are both sufficient, for example 8 ⁇ 8.
  • these reduced grayscale images are interpreted as MN-dimensional feature vectors.
  • a feature amount different from the video feature amount described above there is a feature amount related to audio.
  • this feature will be referred to as a voice feature.
  • the voice feature is a feature that can represent the content of the voice segment. Examples of the audio feature include frequency analysis, pitch, and level.
  • the video / audio processing apparatus 10 may include, for example, an FFT (Fast Fourier Transform) component and a frequency histogram to represent the distribution of frequency information over one audio sub-segment. System, power spectrum, and other features.
  • the video / audio processing apparatus 10 can also use the average pitch and the maximum pitch, and the audio level such as the average volume and the maximum volume as the effective audio feature amount representing the audio sub-segment. .
  • Still another feature quantity is a video-audio common feature quantity. Although this is neither a video feature nor an audio feature in particular, it provides useful information for representing characteristics of a sub-segment in the video and audio processing device 10.
  • the video / audio processing device 10 uses the segment length and the activity as the video / audio common feature.
  • the video / audio processing device 10 can use the segment length as the video / audio common feature amount.
  • This segment length is the length of time in a segment.
  • a scene has rhythm characteristics that are unique to the scene.
  • the rhythmic feature manifests itself as a change in segment length in the scene. For example, a short segment that runs quickly represents a commercial.
  • the segments in the conversation scene are longer than in the commercial case, and the conversation scene is characterized in that the segments combined with each other are similar to each other.
  • the video / audio processing apparatus 10 can use the segment length having such a characteristic as the video / audio common feature amount.
  • the video / audio processing device 10 can use the activity as the video / audio common feature amount.
  • An activity is an index that indicates how dynamic or static the content of a segment feels. For example, when visually dynamic, activity indicates the degree to which a camera moves quickly along an object or the object being photographed changes rapidly. This activity is calculated indirectly by measuring the average value of inter-frame dissimilarity of features such as color histograms.
  • the dissimilarity metric for the feature value F measured between the frame i and the frame j is defined as d F (i, j)
  • the video activity V F is expressed by the following equation (1). Is defined as
  • b and f are the frame numbers of the first and last frames in one segment, respectively.
  • the video and audio processing device 10 calculates the video activity VF using, for example, the above-described histogram.
  • the video and audio processing apparatus 10 extracts such features from the sub-segments, detects sub-segments that are similar to each other by a clustering algorithm, and groups them.
  • the dissimilarity criterion which is a function for calculating a real value for measuring the similarity between two sub-segments, will be described later.
  • step S3 the video and audio processing apparatus 10 selects a target group for signature from the similar groups obtained by grouping the subsegments.
  • the video and audio processing device 10 considers the number of sub-segments classified into each group.
  • a threshold is set for the number of subsegments present in the group.
  • this threshold is usually given as a ratio of the number of subsegments included in a certain group to the number of all subsegments. That is, the video and audio processing apparatus 10 sets a group whose number of elements exceeds the threshold among the obtained groups as a target group for signature.
  • the video / audio processing apparatus 10 can also set an arbitrary constant k as the number of r segments. In this case, the video and audio processing apparatus 10 arranges all groups in the order of the number of elements included therein, and selects only k groups in descending order of the number of elements as target groups for signature.
  • the video and audio processing device 10 selects a target group for signature from the groups.
  • the video and audio processing device 10 selects the r segment in step S4. That is, the video and audio processing device 10 selects one of the sub-segments constituting each group selected in step S3.
  • the video and audio processing device 10 can select an arbitrary subsegment from each group. Or a video and audio processor
  • the video and audio processing apparatus 10 is a more sophisticated approach, in which the subsegment most similar to the mean or median of the subsegments in each group is selected as the r segment. C In this way, the video and audio processing apparatus 10 The r segment from the loop.
  • step S5 the video and audio processing device 10 calculates a weight for each of the r segments.
  • the video / audio processing apparatus 10 sets the weight as a ratio of the number of subsegments included in the group corresponding to each r segment to the total number.
  • the video and audio processing apparatus 10 extracts the signature for each segment by performing the above-described series of steps for all the segments.
  • This scene shows a scene in which two people are talking to each other, starting with a shot showing both people, and then alternately appearing according to the speaker.
  • the shot continues.
  • the video and audio processing device 10 divides the scene into shots as sub-segments in step S1 in FIG. That is, in this case, the video and audio processing apparatus 10 detects and divides nine different sub-segments as shown in FIG. 8 by using the shot detection method.
  • step S2 in FIG. 7 the video and audio processing apparatus 10 classifies and groups sub-segments similar to each other. That is, in this case, based on the visual similarity of the shots, the video and audio processing device 10 performs the first show showing both of the two persons in the scene shown in FIG. The first group consists of only the cuts, and the second and third groups consist of four shots for each speaker. Into three groups.
  • the video and audio processing device 10 selects a group necessary for characterizing a scene in step S3 in FIG.
  • the video and audio processing apparatus 10 sets all of the first to third groups to the shot signature. Decide to use it.
  • the video and audio processing apparatus 10 selects one shot from each group as an r segment in step S4 in FIG.
  • the video and audio processing apparatus 10 selects each of the three shots shown in FIG. 9 as r segments from the first to third groups.
  • step S5 in FIG. 7 the video and audio processing apparatus 10 calculates a weight corresponding to the ratio of the number of shots included in each group for each of the first to third groups.
  • the first group has one shot as an element, and the second and third groups have four shots each. Therefore, the video and audio processing apparatus 10 obtains a weight of 1 Z 9, 4 9, 4/9 for each of the first to third groups.
  • the video and audio processing apparatus 10 obtains the r segment and the weight shown in FIG. 9 as the signature for the scene shown in FIG.
  • the similarity between two segments is defined as the similarity between signatures based on the r segment. Justify. It should be noted here that, in practice, the above-described dissimilarity metric or similarity metric is defined.
  • (r, w) represents the r segment and its associated weighting function, as described above.
  • dissimilarity metric For the dissimilarity metric, a small value indicates that the two segments are similar, and a large value indicates that they are dissimilar.
  • the video / audio processor 10 introduces the L1 distance. I do.
  • the L1 distance d (A, B) between A and B is given by the following equation (3).
  • the subscript i indicates the i-th element of each of the n-dimensional vectors A and B.
  • the video and audio processing device 10 measures the similarity between the two signatures represented by the above-described dissimilarity metric by the CPU 11 described above, and calculates the target segment of these two signatures. Similarity is defined by one of the following methods based on the similarity of the r segments.
  • the video and audio processing apparatus 10 calculates a distance between two signatures using a weighted minimum value represented by the following equation (4).
  • the video and audio processing device 10 calculates a distance between two signatures by using a weighted average distance represented by the following equation (5).
  • the video and audio processing device 10 calculates the distance between the two signatures using the weighted median distance shown in the following equation (6).
  • the video and audio processing apparatus 10 is described as a fourth method using "Y. Rubner, C. Tomasi and LJ Guibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the on Computer Vision, Bombay, India, January 1998 ", which is used in the case of force short message for still images, using the distance metric described in the following equation (7). Mover) to calculate the distance between two signatures.
  • Mover an mxn cost matrix C is defined.
  • C ii is a value that minimizes the function.
  • the video and audio processor 10 is based on "Y. Rubner, C. Tomasi and LJ Gu ibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Conference on Computer. Vision, Bombay, India, January 1998 "By using a self-contained algorithm, the function shown in equation (7) can be minimized according to the constraint shown in equation (8). The value of Cii can be detected. In the video and audio processing device 10, the value of the distance between two signatures is defined as the minimum value of the function shown in equation (7).
  • the video / audio processing device 10 obtains the similarity between the two segments as the similarity of the signature based on the r segment by any one of such methods. Then, the video and audio processing device 10 determines whether or not to group the segments based on the approximate similarity between the segments.
  • the video and audio processing apparatus 10 can convert a unit of video data including a program and a frame into a unit. They can be grouped regardless of the level of the hierarchy.
  • the video / audio processing apparatus 10 automatically extracts signatures at various levels of video data and compares the similarity of the two signatures. By doing so, it is possible to compare similarities between corresponding segments.
  • the video / audio processing apparatus 10 is capable of grouping segments in various layers of video data, and is applicable to different types of video data.
  • the video and audio processing device 10 can be a general-purpose tool for automatically searching for and extracting an arbitrary structure of video data.
  • the present invention is not limited to the above-described embodiment.
  • feature amounts used when grouping mutually similar sub-segments may be other than those described above.
  • it is sufficient that sub-segments that are related to each other can be grouped based on some information.
  • the signal processing method according to the present invention uses a sub-segment representing the contents of a segment among sub-segments included in a segment constituting a supplied signal.
  • a representative segment and a weighting function that assigns weight to this representative segment A signal processing method for extracting a signature defined by: a group selection step of selecting a group to be a target of a signature from groups obtained by classifying sub-segments based on an arbitrary attribute; The method includes a representative segment selecting step of selecting one representative segment from the group selected in the step, and a weight calculating step of calculating a weight for the representative segment obtained in the representative segment selecting step.
  • the signal processing method according to the present invention can extract signatures related to segments, and use this signature to compare similarities between different segments irrespective of the segment hierarchy of a signal. Can be.
  • the signal processing method according to the present invention can search for segments having desired contents based on similarity with respect to segments of various layers in various signals.
  • the video and audio processing apparatus includes a video and / or audio sub-segment included in a video and a Z or an audio segment constituting a supplied video signal, and A video and audio processing apparatus for extracting a signature defined by a representative segment, which is a representative video and / or audio subsegment, and a weighting function for assigning weight to the representative segment, comprising: From the groups obtained by classification based on arbitrary attributes, select the group to be signed, select one representative segment from the selected group, and calculate the weight for the obtained representative segment. Execution means for performing the operation.
  • the video and audio processing apparatus provides a Can extract signatures for audio segments and use this signature to determine the similarity between different video and / or Z or audio segments regardless of the hierarchy of video and / or audio segments in the video signal. It becomes possible to compare. From this, the video and audio processing apparatus according to the present invention provides video and / or audio having desired contents based on similarity to video and / or audio segments of various layers in various video signals. You can search for segments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

明細書 信号処理方法及び映像音声処理装置 技術分野 本発明は、 信号を構成する互いに異なる任意のセグメント間の類 似性を測定する信号処理方法及びビデオ信号を構成する互いに異な る任意の映像及び Z又は音声セグメント間の類似性を測定する映像 音声処理装置に関する。 背景技術 例えばビデオデータに録画されたテレビ番組といつた大量の異な る映像データにより構成される映像アプリケーシヨ ンの中から、 興 味のある部分等の所望の部分を探索して再生したい場合がある。
このように、 ビデオデータといったマルチメディァデータを探索 する場合には、 多くのコンピュータアプリケーションで用いられて いるデータとは本質的に異なり、 正確に一致するもの同士を発見す ることは期待できず、 むしろ、 似ているものを探索することとなる。 そのため、 マルチメディァデータの内容に基づく探索に関する技術 のうち、 ほとんど全ての技術は、 例えば "G. Ahanger and T. D. C. Little, A survey or technologies for parsing and indexing ai gital video, J. of Visual Communication and Image Represents tion 7:28-4, 1996" 等に記載されているように、 類似性に基づく探 索を基礎と している。
このような類似性に基づく探索を行う技術においては、 まず内容 の類似性が数値的に測定される。 そして、 この技術においては、 類 似性の測定結果を用いて、 対象とするアイテムとの類似性測定基準 に基づいて類似性の高いものから順位付けする。 その結果得られた リス トにおいては、 最も類似しているもの同士は、 そのリス トの先 頭付近に現れることとなる。
このようなマルチメディァデータの内容に基づく探索方法におい ては、 映像データ並びに音声データ、 及び本質的には信号処理によ るビデオ処理技術を用いて、 まずマルチメディァデータから低レべ ルの特徴量を抽出する。 そして、 この探索方法においては、 抽出し た特徴量を用いて、 類似性に基づく探索のために必要となる類似性 測定基準を求める。
マルチメディァデータの内容に基づく探索に関する研究は、 最初 は、 イメージ (静止画像) の探索に焦点を当てたものが多い。 この ような研究においては、 ィメージ同士の類似性を測定するために、 いわゆる色、 テクスチャ、 形状といった多数の低レベルな映像特徴 量を用いている。
また、 最近では、 ビデオデータについての内容に基づく探索に関 する研究も行われている。 ビデオデータの場合には、 通常、 長いビ デォデータの中において一致する部分を探索することから、 ビデオ C B R (Content s Bas e Retri eval ) に関するほとんどの技術にぉレ' ては、 まずビデオデータをセグメントという連続するフレームのひ と続き単位に分割する。 これらのセグメントは、 類似性に基づく探 索を行う際の対象となるものである。 このビデオデータをセグメン 卜に分割する既存の方法としては、 例えば上述した "G. Ahanger a nd T. D. C. Little, A survey or technologies for parsing and 1 ndexing digital video, J. of Visual Communication and Image Representation 7: 28-4, 1996" に記載されているように、 通常、 シ ョ ッ ト検出アルゴリ ズムを用いて、 ビデオデータをいわゆるショ ッ トに分割するものがある。 そして、 探索を行う際には、 得られたシ ョ ッ トから類似性に基づく比較を可能とする特徴量を抽出する。 しかしながら、 ショ ッ トにおける際立った特徴量を捉え、 且つ、 類似性に基づくショ ッ ト同士の比較を可能とするような特徴量を検 出することは困難である。 そこで、 ビデオデータについての内容に 基づく探索への既存のアプローチとしては、 通常、 各ショ ッ トから 代表フ レームを抽出し、 これらの代表フレームの集合に対して探索 を行うことで代替される。 これらの代表フ レームは、 通常、 キーフ レームと称されるものである。 すなわち、 ショ ッ ト内容に基づく探 索技術は、 ショ ッ ト ' キーフレームの比較を行うことによって、 ィ メージ内容に基づく探索技術に帰着される。 例えば、 ショ ッ トにつ いてキーフレームからカラーヒス トグラムを抽出した場合、 これら キーフレームのヒス トグラムを用いて 2つのシヨ ッ トの類似性を測 定することができる。 このアプローチは、 キーフレームを選択する 際にも有効である。
簡単なアプローチと しては、 各ショ ッ トから固定的に 1つの決ま つたフレームを選択するものがある。 また、 多数のフレームを選択 するための他の方法と しては、 "B.L. Yeo and B. Liu, Rapid see ne analysis on compressed video, IEEE Transactions on Circui ts and Systems for Video Technology, vol.5, no.6, pp.533, De cember 1995" に記載されているフレーム差や、 "W. Wolf, Key fr ame selection by motion analysis, Proceedings of IEEE Int 1 Conference on Acoustic, Speech and Signal Proceeding, 199o に記載されている運動分析や、 "Y. Zhuang, Y. Rui, T. Huang an d S. Mehrotra, Adaptive key frame extraction using unsupervi sed clustering, Proceedings of IEEE Int' 1 Conference on Imag e Proceeding, Chicago, Iし, , October 4-7 1998" ίこ記載されてレ、 るクラスタリング技術を用いるものがある。
ところで、 キーフレームに基づく上述した探索技術は、 ショ ッ ト の類似性に基づく探索に限定されるものである。 しかしながら、 例 えば代表的な 3 0分のテレビ番組中には、 数百ものショ ッ トが含ま れているため、 上述した従来の探索技術においては、 抽出された膨 大な数のショ ッ トを調べる必要があり、 このような膨大な数のデー タを探索対象とすることは大きな負担であった。
そのため、 例えばセグメントを或る関連に基づいてまとめたシー ンゃプログラムといった、 ショ ッ トより も長い映像セグメント及び 音声セグメント同士の類似性を比較することによって、 負担を軽減 する必要力 Sあった。
しかしながら、 従来の探索技術は、 例えば、 特定のコマーシャル に類似したセグメントを探索したり、 或るテレビ番組において、 同 一演技を描いた関連ショ ッ ト群で構成された或るシーンに類似した シーンを探索するといった要求に応えるものではなかった。
このように、 ショ ッ トのレベノレより も高いレべノレのセグメン トの 類似性に基づく比較を論じた刊行済みの研究は、 ほとんど見受けら れない。 この種の唯一の研究と しては、 "J. Kender and B. L. Yeo, Vi deo S cene Segmentat ion v ia Conti nuous Video Coherence, IB M Research Report, RC21061 , December 18, 1997" 力 ある。 この研 究は、 2つのシーンの類似性を比較するための方法を提供している。 この研究における探索技術は、 ビデオデータの全てのショ ッ トをカ テゴリ に分類した後、 各シーンについて、 各カテゴリ に属するシー ン中のショ ッ トの数を数える。 得られた結果は、 標準の類似性測定 基準を用いて比較することが可能なヒス トグラムである。 この研究 では、 類似するシ一ン同士の類似性を比較する上で、 ある程度成功 したことが報告されている。
しかしながら、 この方法は、 ビデオデータの全てのショ ッ トを分 類する必要があった。 全てのショ ッ トを分類することは困難なもの であって、 通常、 膨大な計算を要する技術を必要とする。
また、 この方法は、 たとえ全てのショ ッ トを正確に分類すること ができたと しても、 カテゴリ同士の類似性を考慮していないことカ ら、 紛らわしい結果を与える可能性があった。 例えば、 ビデオデー タのショ ッ トが 3つのカテゴリ A, B , Cに分割されるものと し、 或るシーン Xが、 カテゴリ B及びカテゴリ Cのショ ッ トを全く有し ておらず、 カテゴリ Aのショ ッ トを 2つ有するものと し、 異なるシ ーン Yが、 カテゴリ A及びカテゴリ Cのショ ッ トを全く有しておら ず、 カテゴリ Bのショ ッ トを 2つ有するものとする。 この場合、 こ の方法においては、 シーン Xとシーン Yとの類似性がないものと判 断する。 ところが、 カテゴリ Aとカテゴリ Bとのショ ッ トが互いに 類似している場合には、 類似性の値は、 ゼロであるべきではない。 すなわち、 この方法においては、 ショ ッ ト自体の類似性を考慮して いないことから、 このような誤った判断がなされることがあった。 発明の開示
本発明は、 このような実情に鑑みてなされたものであり、 上述し た従来の探索技術の問題を解決し、 種々のビデオデータにおける様 々なレベルのセグメントの類似性に基づく探索を行う信号処理方法 及び映像音声処理装置を提供することを目的とするものである。 上述した目的を達成する本発明にかかる信号処理方法は、 供給さ れた信号を構成するセグメン トに含まれるサブセグメン トのうち、 セグメントの内容を代表するサブセグメントである代表セグメント と、 この代表セグメントに重みを割り当てる重み付け関数とにより 定義されるシグネチヤを抽出する信号処理方法であって、 サブセグ メントを任意の属性に基づいて分類して得たグループのうち、 シグ ネチヤの対象とするグループを選択するグループ選択工程と、 この グループ選択工程にて選択したグループより、 1つの代表セグメン トを選択する代表セグメント選択工程と、 この代表セグメント選択 工程にて得た代表セグメントについての重みを算出する重み算出ェ 程とを備えることを特徴と している。
このような本発明にかかる信号処理方法は、 セグメントに関する シグネチヤを抽出する。
また、 上述した目的を達成する本発明にかかる映像音声処理装置 は、 供給されたビデオ信号を構成する映像及び 又は音声セグメン トに含まれる映像及び 又は音声サブセグメントのうち、 映像及び
/又は音声セグメントの内容を代表する映像及び Z又は音声サブセ グメントである代表セグメントと、 この代表セグメントに重みを割 り当てる重み付け関数とにより定義されるシグネチヤを抽出する映 像音声処理装置であって、 映像及び Z又は音声サブセグメン トを任 意の属性に基づいて分類して得たグループのうち、 シグネチヤの対 象とするグループを選択し、 この選択したグループより、 1つの代 表セグメントを選択し、 得られた代表セグメントについての重みを 算出する実行手段を備えることを特徴と している。
このよ うに構成された本発明にかかる映像音声処理装置は、 映像 及び Z又は音声セグメントに関するシグネチヤを抽出する。 図面の簡単な説明 図 1は、 本発明において適用するビデオデータの構成を説明する 図であって、 モデル化したビデオデータの構造を説明する図である c 図 2は、 ショ ッ トについての映像フレームシグネチヤを説明する 図である。
図 3は、 シーンについてのショ ッ トシグネチヤを説明する図であ る。
図 4は、 シーンについての音声セグメントシグネチヤを説明する 図である。
図 5は、 テレビ番組についてのシヨ ッ トシグネチヤを説明する図 である。
図 6は、 本発明の実施の形態と して示す映像音声処理装置の構成 を説明するブロック図である。
図 7は、 同映像音声処理装置において、 シグネチヤを抽出する際 の一連の工程を説明するフローチヤ一トである。 図 8は、 図 7における一連の工程を具体的に説明するために適用 したシーンを説明する図である。
図 9は、 図 8に示すシーンから選び取られた rセグメントを説明 する図である。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について図面を参照 しながら詳細に説明する。
本発明を適用した実施の形態は、 ビデオデータから所望の内容を 自動的に探し出して抽出するために、 ビデオデータ内の任意の集合 を代表するデータを自動的に抽出する映像音声処理装置である。 こ の映像音声処理装置の具体的な説明を行う前に、 ここではまず本発 明において対象とするビデオデータに関する説明を行う。
本発明において対象とするビデオデータについては、 図 1に示す ようにモデル化し、 フレーム、 セグメント、 プログラムといったレ ベルに階層化された構造を有するものとする。 すなわち、 ビデオデ ータは、 その最上位層であり ビデオデータ全体を表すプログラムと - その最下位層である一連のフレームとの間を、 複数階層からなるセ グメントにより構成されるものとする。
ビデオデータにおけるセグメントと しては、 連続するフレームの ひと続きから形成されるものや、 また、 このようなフレームの並び を或る関連に基づきシーンとしてまとめたものもあり、 さらには、 このようなシーンを或る関連に基づきさらにまとめたものもある。 また、 広い意味では、 単一のフレームもセグメントの一種であると 考えることができる。
すなわち、 ビデオデータにおけるセグメントとは、 ここでは、 プ ログラムとフレームとを含めたビデオデータにおける或るまとまり を、 階層の高低とは無関係に総称したものであって、 ビデオデータ のス ト リームの何らかの連続的部分であると定義する。 勿論、 セグ メ ン トは、 上述した連続するフレームのひと続きから形成されるも のと、 シーンとの中間構造といったように、 何らかの意味を持った 中間的な構造であってもよい。 一方、 例えば、 任意のセグメント X が、 異なるセグメント Yの中に完全に包含されるものである場合に は、 セグメント Xは、 セグメント Yのサブセグメントであると定義 する。
このようなビデオデータは、 一般に、 映像及び音声の両方の情報 を含む。 すなわち、 このビデオデータにおいてフレームは、 単一の 静止画像である映像フレームと、 一般に数 H ^〜数百ミ リセカンドノ 長といった短時間において標本化された音声情報を表す音声フレー ムとを含むものとする。
また、 セグメントは、 映像セグメントと音声セグメントとを含む ものである。 すなわち、 セグメントは、 単一のカメラにより連続的 に撮影された映像フレームのひと続きからなるいわゆるショ ッ トゃ、 この特徴を表す特徴量を用いて、 ショ ッ トを意味のあるまとまりに グループ化したシーン等の映像セグメントを含む。 さらに、 セグメ ントは、 例えば、 一般によく知られている方法により検出されたビ デォデータ中の無音期間により境界を定められて形成されるものや、
D. Kimber and L. Wi l cox, Acoust i c Segmentat ion for Audio B rows ers, Xerox Pare Techn i ca l Report" ίこ gc載されてレヽるよう tこ、 例えば、 音声、 音楽、 ノイズ、 無音等のように少数のカテゴリに分 類された音声フレームのひと続きから形成されるものや、 " S. Pfe i f f er, S. Fi s cher and E. Wol fgang, Automat i c Audio Content A nalys i s, Proceedi ng of ACM Mu lt imedi a 96, Nov. 1996, pp21 -30 " に記載されているように、 2枚の連続する音声フレーム間の或る 特徴における大きな変化を検出する音声力ッ ト検出を用いて決定さ れるものや、 一連の音声フレームを何らかの特徴量に基づいて意味 のあるまとまりにグループ化したものといった音声セグメントを含 む。
本発明を適用した実施の形態と して示す映像音声処理装置は、 上 述したビデオデータにおけるセグメントの内容を特徴付ける一般的 な特徴量であるシグネチヤ (S ignature) を自動的に抽出するととも に、 2つのシグネチヤの類似性を比較するものであり、 映像セグメ ント及び音声セグメントの両方に適用できるものである。 得られる 類似性測定基準は、 セグメントの探索及び分類を行うための汎用ッ ールを与えるものである。
ここで、 シグネチヤについて説明する。 シグネチヤとは、 一般に、 或る対象を識別するものであって、 その対象よりも少ない情報によ つて、 その対象を高い精度で識別する何らかのデータである。 例え ば、 人間に関するシグネチヤと しては、 指紋がその一種と して挙げ られる。 すなわち、 或る物体に付着した 2組の指紋の類似性を比較 することは、 同一人物がその指紋を付けたか否かを正確に判定する ことを可能とする。
同様に、 映像セグメント及び音声セグメントに関するシグネチヤ は、 映像セグメント及び音声セグメントを識別することを可能とす るデータである。 このシグネチヤは、 ここでは、 セグメントを分割 して得られる上述したサブセグメントの重み付き集合と して与えら れるものとする。 例えば、 或るセグメント Xに関するシグネチヤ S は、 後述するように、 セグメント Xを代表するサブセグメントを要 素とする代表セグメント Rと、 この代表セグメント Rの各要素に重 みを割り当てる関数である重み付け関数 Wとで表される対く R, W 〉であると定義される。
以下の説明では、 いわゆる代表フレームを表す用語である r フ レ ーム ( Repre sentat ive frame) を拡張して、 代表セグメン卜を rセ グメントと記すこととする。 これより、 或るシグネチヤが含む全て の rセグメントの集合は、 そのシグネチヤの rセグメントと称され る。 また、 rセグメントのタイプを、 そのシグネチヤの rタイプと 称す。 そして、 シグネチヤの rタイプを明示する必要がある場合に は、 そのタイプを "シグネチヤ" という用語の前に付ける。 例えば、 映像フ レームシグネチヤは、 その rセグメントが全て映像フ レーム であるシグネチヤを示す。 また、 ショ ッ トシグネチヤは、 その rセ グメントが上述したショ ッ トであるシグネチヤを示す。 一方、 或る シグネチヤ Sにより記述されるセグメントを、 当該シグネチヤ Sの 対象セグメントと称す。 シグネチヤは、 映像セグメント、 音声セグ メント、 或いはこれらの両方の組み合わせを含む rセグメントを用 いることができる。
このようなシグネチヤは、 セグメントを有効に表す幾つかの性質 を有する。
まず、 シグネチヤは、 最も重要な性質として、 ショ ッ ト等の短い セグメントを記述するのみならず、 或るシーン全体或いはビデオデ —タ全体といったさらに長いセグメントを記述することを可能とす る。
また、 長い対象セグメントを特徴付けるために必要な rセグメン トは、 通常、 僅かの数に過ぎない。 すなわち、 シグネチヤは、 僅か のデータ量でセグメントを特徴付けることを可能とする。
さらに、 シグネチヤにおいては、 各 rセグメントに割り当てられ た重みが、 各 rセグメントの重要性又は関連性を表し、 対象とする セグメントを識別することを可能とする。
さらにまた、 フレームのみならず、 ショ ッ トやシーン等のい力 な るセグメントも rセグメントとして用いることができるため、 シグ ネチヤとは、 いわゆるキーフレームという概念を拡張して一般化し たものに他ならないといえる。
また、 セグメントをより単純なサブセグメントの集合に分解でき る場合には、 それらのサブセグメントを rセグメントと して用いる ことができる。
このようなシグネチヤは、 コンピュータ支援 · ユーザ · ィンター フェースを介して、 ユーザが任意に作成することもできるが、 ほと んどのアプリケーションにおいては、 自動的に抽出されることが望 ましい。
ここで、 シグネチヤの実例について幾つか説明する。
まず、 ショ ッ トについての映像フレームシグネチヤは、 図 2に示 すように、 その rセグメントが静止画像であるシグネチヤである。 このようなシグネチヤを作成する 1つの方法は、 各シヨ ッ トにつレヽ てのキーフレームを rセグメントと して用い、 当該キーフレームに ほぼ一致するシヨ ッ ト内映像フレームの、 ショ ッ ト内全映像フ レー ムに対する割合を重み付けと して用いることである。
また、 シーンについてのショ ッ トシグネチヤは、 図 3に示すよう に、 その! "セグメントがショ ッ トであるシグネチヤである。 ここで、 シーン中のショ ッ トを n個のグループに分類できるとする。 この場 合、 n個の rセグメントからなるシグネチヤを作成することができ る。 すなわち、 各グループについて、 或る 1つのショ ッ トを rセグ メントと して振る舞うものとして選択する。 ここで、 各 rセグメン 卜についての重み付けであるが、 後述するように、 シーンを構成す る全ショ ッ ト数に対する各グループを構成するショ ッ ト数の割合と して与えることができる。
さらに、 シグネチヤは、 視覚情報のみを用いることには限定され ず、 図 4に示すように、 シーンについての音声セグメントシグネチ ャもシグネチヤの実例と して挙げることができる。 ここで、 シーン についての音声セグメントシグネチヤとは、 音声セグメントの集合 を rセグメントとして用いるものである。 例えば、 互いに会話をし ている複数人からなるシーンを考える。 この場合、 話し手を自動的 に区別することが可能であれば、 各話し手の短いスピーチセグメン トを rセグメントと して使うことができる。
さらにまた、 シグネチヤは、 短いセグメントを記述するために役 立つばかりではなく、 ビデオ全体を記述するためにも用いることが できる。 例えば、 複数のショ ッ トを適宜選択することによって、 特 定のテレビ番組を他のテレビ番組から明確に区別することが可能と なる。 このようなショ ッ トは、 当該テレビ番組で繰り返し使用され るものであり、 例えば、 図 5に示すようなニュース番組における始 まりのロゴ ' ショ ッ トと、 ニュースキャスターを示すショ ッ トとカ これに相当する。 この場合、 重み付けは、 ショ ッ トの重要性を表す こと力 ら、 ロゴ · ショ ッ トとニュースキャスターのショ ッ トとに同 じ重みを割り当てることが適当である。
このようなシグネチヤを自動的に抽出するとともに、 2つのシグ ネチヤの類似性を比較する映像音声処理装置 1 0は、 図 6に示すよ うに、 各部の動作を制御するとともに、 ROM 1 2に記憶されてい るプログラムを実行してセグメントのシグネチヤを抽出する実行手 段である C PU (Central Processing Unit) 1 1 と、 シグネチヤを 抽出するために C PU 1 1が実行するプログラムや、 使用する数値 等を記憶しておく読み出し専用のメモリである R OM (Read Only Memory) 1 2と、 入力したセグメントを分割して得られるサブセグ メントゃ、 rセグメント等を記憶する作業領域としての機能を有す るメモリである RAM (Random Access Memory) 1 3と、 作成した シグネチヤ等を必要に応じて図示しない記録媒体に対して記録及び Z又は再生する HDD (Hard Disk Drive) 1 4と、 シグネチヤを求 めるセグメントを入力するとともに、 rセグメントの集合とこれら の各 rセグメントについての重みとをシグネチヤと して出力するィ ンターフェース (以下、 I ZFと略記する。 ) 1 5とを備え、 これ らの各部は、 バス 1 6により相互に接続されている。
このような映像音声処理装置 1 0は、 C P U 1 1が R〇M 1 2に 記憶されているプログラムを読み出して実行し、 図 7に示すような —連の処理を行うことによって、 シグネチヤを抽出する。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 1において、 I ZF 1 5を介して入力したセグメントをサブセグメ ン トに分割する。 ここで分割されて得られたサブセグメントは、 r セグメ ン トの候補である候補 rセグメ ン トとなる。
映像音声処理装置 1 0は、 セグメントをサブセグメントに分割す る方法と して特に限定は設けず、 適用可能な方法であればいかなる 方法であってもよい。 このような方法は、 使われるサブセグメント のタイプに大きく依存する。 ここでは、 セグメントをさらに小さレ、 セグメ ン トの集合に分解する方法を用いる。 具体的には、 映像音声 処理装置 1 0は、 例えば、 rセグメントが映像フレームである場合 には、 容易に分解することができ、 そのセグメント中の全ての映像 フレーム (静止画像) の集合がサブセグメ ントの候補集合となる。 また、 映像音声処理装置 1 0は、 rセグメントがショ ッ トである場 合には、 例えば "B. Furht (Editor) , Handbook of Multimedia Com puting, CRC Press, 1998" や "J. Render and B丄 Yeo, Video S cene Segmentation via Continuous Video Coherence, IBM Resear ch Report, RC21061, December 18, 1997" tこ記載されてレヽるような 既存のアルゴリズムを用いて、 セグメン トをショ ッ トに分割する。 さらに、 映像音声処理装置 1 0は、 サブセグメントが音声セグメン トである場合には、 例えば上述した "D. Kimber and L. Wilcox, A coustic Segmentation for Audio Browsers, Xerox Pare Technics 1 Report" や "S. Pf eif fer, S. Fischer and E. Wolfgang, Autom atic Audio Content Analysis, Proceeding of ACM Multimedia 96,
Nov. 1996, pp21-30" に記載されているようなオーディオ分割手法 を用いて、 サブセグメント間の境界を検出する。
このように、 映像音声処理装置 1 0は、 セグメントのタイプに依 存せずにセグメントをサブセグメントに分割する。 なお、 映像音声 処理装置 1 0は、 セグメントがフレームであった場合には、 この分 割工程を行う必要はない。
次に、 映像音声処理装置 1 0は、 ステップ S 2において、 互いに 類似したサブセグメントをグループ化する。 すなわち、 互いに類似 したサブセグメントのグループは、 対象とするセグメン トの内容を 最も良好に表すと考えられることから、 映像音声処理装置 1 0は、 互いに類似したサブセグメントを検出してグループ化する。 なお、 互いに類似したサブセグメントとは、 各サブセグメントが有する後 述する特徴量において、 それらの非類似性測定基準の値が小さいサ ブセグメント同士のことを示す。
映像音声処理装置 1 0は、 ステップ S 1 と同様に、 互いに類似し たサブセグメントをグループ化する方法と して特に限定は設けず、 適用可能な方法であればいかなる方法であってもよい。 映像音声処 理装置 1 0は、 例えば、 "L. Kaufman and P. J. Roussee而, Findi ng Groups in Data: An Introduction to Cluster Analysis, John- Wiley and sons, 1990" に記載されてよく知られている k平均ィ直ク ラスタ!;ング法 (k一 means— clustering method) や kーメ ドィ ドアノレ ゴリズム法 (k-medoids algorithm method) とレヽつたクラスタ リン グ . アルゴリズムを用いて、 候補 Γセグメントの集合内に類似ダル ープを生成する。 このようなクラスタリング · アルゴリズムのほと んどは、 2つのサブセグメントを比較するために、 サブセグメント から抽出した後述する特徴量に関する非類似性測定基準のみを必要 とする。 映像音声処理装置 1 0は、 映像フレームやショ 、スト等につ いて広く知られている類似性に基づく測定基準のいずれをも用いる ことができる。
ここで、 特徴量について説明する。 特徴量とは、 セグメントの特 徴を表すとともに、 異なるセグメント間の類似性を測定するための データを供給するセグメ ン トの属性である。 映像音声処理装置 1 0 は、 いかなる特徴の具体的詳細にも依存するものではないが、 当該 映像音声処理装置 1 0において用いて効果的であると考えられる特 徴量と しては、 例えば、 以下に示す映像特徴量、 音声特徴量、 映像 音声共通特徴量のようなものがある。
映像特徴量と して既知のものは多数存在し、 例えば色特徴量 (ヒ ス トグラム) や映像相関がある。
映像における色は、 2つの映像が類似しているかを判断する際の 重要な材料となる。 カラーヒス トグラムを用いて映像の類似性を判 断することは、 例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7: 28-4, 199 6" に記載されているように、 よく知られている。 ここで、 カラーヒ ス トグラムとは、 例えば H S Vや R G B等の 3次元色空間を n個の 領域に分割し、 映像における画素の、 各領域での出現頻度の相対的 割合を計算したものである。 -そして、 得られた情報からは、 n次元 ベタ トルが与えられる。 圧縮されたビデオデータについては、 例え ば U. S. Patent #5, 708, 767号公報に記載されているように、 カラー ヒス トグラムを、 圧縮データから直接抽出することができる。
サブセグメントからの特徴量と してヒス トグラムを抽出する場合 には、 映像音声処理装置 1 0は、 サブセグメントを構成する映像に おけるもともとの YU V色空間を、 色チャンネル当たり 2ビッ トで サンプルして構成した、 長さ 22·3 = 6 4次元のヒス トグラムべク ト ルを得る。 このようなヒス トグラムは、 映像の全体的な色調を表すが、 これ には時間情報が含まれていない。 そこで、 映像音声処理装置 1 0で は、 もう 1つの映像特徴量として、 映像相関を計算することもでき る。 複数の類似セグメントが互いに交差した構造は、 それがまとま つた 1つの構造であることの有力な指標となる。 例えば会話場面に おいて、 カメラの位置は、 2人の話し手の間を交互に移動するが、 カメラは通常、 同一の話し手を再度撮影するときには、 ほぼ同じ位 置に戻る。 このような場合における構造を検出するためには、 ダレ ィスケール映像の縮小画像に基づく相関がサブセグメントの類似性 の良好な指標となることから、 映像音声処理装置 1 0は、 元の映像 を M X Nの大きさのグレイスケール映像へ間引き縮小し、 これを用 いて映像相関を計算する。 ここで、 Mと Nは、 両方とも小さい値で 十分であり、 例えば 8 X 8である。 すなわち、 これらの縮小グレイ スケール映像は、 M N次元の特徴量べク トルとして解釈される。 さらに上述した映像特徴量とは異なる特徴量と しては、 音声に関 するものが挙げられる。 以下では、 この特徴量を音声特徴量と称す ることにする。 音声特徴量とは、 音声セグメ ン トの内容を表すこと ができる特徴量である。 音声特徴量と しては、 例えば、 周波数解析、 ピッチ、 レベルが挙げられる。 これらの音声特徴量は、 種々の文献 により知られているものである。
まず、 音声特徴量として、 フーリエ変換等の周波数解析を行うこ とにより得られる、 単一の音声フレームにおける周波数情報の分布 が挙げられる。 映像音声処理装置 1 0は、 例えば、 1つの音声サブ セグメントにわたる周波数情報の分布を表すために、 F F T (Fast Fourier Transform; 高速フーリエ変換) 成分、 周波数ヒス トグラ ム、 パワースペク トル、 その他の特徴量を用いることができる。 また、 映像音声処理装置 1 0は、 平均ピッチや最大ピッチといつ たピッチや、 平均音量や最大音量等の音声レベルもまた、 音声サブ セグメントを表す有効な音声特徴量と して用いることができる。
さらに他の特徴量と しては、 映像音声共通特徴量が挙げられる。 これは、 特に映像特徴量でもなく音声特徴量でもないが、 映像音声 処理装置 1 0において、 サブセグメントの特徴を表すのに有用な情 報を与えるものである。 映像音声処理装置 1 0は、 この映像音声共 通特徴量と して、 セグメント長とアクティビティ とを用いる。 映像音声処理装置 1 0は、 映像音声共通特徴量として、 セグメン ト長を用いることができる。 このセグメント長とは、 セグメントに おける時間長である。 一般に、 シーンは、 そのシーン固有のリズム 特徴を有する。 そのリズム特徴は、 シーン内のセグメント長の変化 と して現れる。 例えば、 迅速に連なった短いセグメントは、 コマ一 シャルを表す。 一方、 会話シーンにおけるセグメントは、 コマーシ ャルの場合より も長く、 また会話シーンには、 相互に組み合わされ たセグメントが互いに類似しているという特徴がある。 映像音声処 理装置 1 0は、 このよ うな特徴を有するセグメント長を映像音声共 通特徴量と して用いることができる。
また、 映像音声処理装置 1 0は、 映像音声共通特徴量と して、 ァ クテイ ビティを用いることができる。 アクティ ビティとは、 セグメ ントの内容がどの程度動的或いは静的であるように感じられるかを 表す指標である。 例えば、 視覚的に動的である場合、 ァクティ ビテ ィは、 カメラが対象物に沿って迅速に移動する度合い若しくは撮影 されているオブジェク トが迅速に変化する度合いを表す。 このアクティ ビティは、 カラーヒス トグラムのような特徴量のフ レーム間非類似性の平均値を測定することにより間接的に計算され る。 ここで、 フレーム i とフレーム j との間で測定された特徴量 F に対する非類似性測定基準を d F ( i , j ) と定義すると、 映像ァク テイ ビティ V Fは、 次式 ( 1 ) のように定義される。
V
Figure imgf000022_0001
式 ( 1 ) において、 bと f は、 それぞれ、 1セグメントにおける 最初と最後のフレームのフレーム番号である。 映像音声処理装置 1 0は、 具体的には、 例えば上述したヒス トグラムを用いて、 映像ァ クティビティ V Fを計算する。
映像音声処理装置 1 0は、 このよ うな特徴量をサブセグメントか ら抽出して互いに類似したサブセグメントをクラスタリ ング ' アル ゴリズムにより検出してグループ化する。
なお、 2つのサブセグメン 卜の類似性を測定する実数値を算出す る関数である非類似性測定基準については、 後述する。
次に、 映像音声処理装置 1 0は、 ステップ S 3において、 サブセ グメントをグループ化して得た類似グループの中から、 シグネチヤ の対象グループを選択する。 ここで、 映像音声処理装置 1 0は、 セ グメントの正確な特徴付けのために必要となる rセグメントの数を 決定する際に、 各グループへ分類されたサブセグメントの数を考盧 する。
具体的には、 映像音声処理装置 1 0は、 シグネチヤの対象グルー プを選択するために、 グループ中に存在するサブセグメントの個数 に対して閾値を設定する。
映像音声処理装置 1 0においては、 通常、 この閾値は、 全サブセ グメント数に対する、 或るグループに含まれるサブセグメント数の 比と して与えられる。 すなわち、 映像音声処理装置 1 0は、 得られ たグループのうち、 その要素数が閾値を上回るグループを、 シグネ チヤの対象グループとする。
—方、 映像音声処理装置 1 0は、 任意の定数 kを rセグメントの 個数と して設定することもできる。 この場合には、 映像音声処理装 置 1 0は、 全てのグループを、 それが含む要素数の順に並べ、 要素 数が大きい順に k個のグループのみをシグネチヤの対象グループと して選択する。
このようにして、 映像音声処理装置 1 0は、 グループの中から、 シグネチヤの対象グループを選択する。
次に、 映像音声処理装置 1 0は、 ステップ S 4において、 rセグ メントを選び取る。 すなわち、 映像音声処理装置 1 0は、 ステップ S 3にて選択された各グループを構成するサブセグメントの中から
1つのサブセグメントのみを選択し、 そのサブセグメントを! "セグ メントとして、 シグネチヤの要素とする。
映像音声処理装置 1 0は、 具体的には、 各グループから任意のサ ブセグメントを選び取ることができる。 或いは、 映像音声処理装置
1 0は、 より洗練されたアプローチと して、 各グループにおけるサ ブセグメントの平均値又は中央値 (med i an) に対し、 それに最も類 似したサブセグメントを rセグメントと して選び取ることもできる c このようにして、 映像音声処理装置 1 0は、 選択した各対象グル ープから、 rセグメントを選び取る。
そして、 映像音声処理装置 1 0は、 ステップ S 5において、 rセ グメントのそれぞれについての重みを算出する。 映像音声処理装置 1 0は、 重みを、 各 rセグメントが対応するグループが含むサブセ グメント数の、 総数に対する比と して設定する。
映像音声処理装置 1 0は、 以上のような一連の工程を全てのセグ メントに対して行うことによって、 各セグメントに関するシグネチ ャを抽出する。
このような一連の処理をさらに具体的に説明するために、 図 8に 示す或るシーンに関するショ ッ トシグネチヤを抽出する例について 説明する。
このシーンは、 2人の人物が互いに会話している場面を示すもの であり、 2人の人物の両方を示すショ ッ トから始まり、 以降、 2人 の人物が話し手に応じて交互に出現するショッ トが続いている。 このようなシーンの場合、 映像音声処理装置 1 0は、 図 7中ステ ップ S 1において、 シーンをサブセグメントであるショ ッ トに分割 する。 すなわち、 この場合には、 映像音声処理装置 1 0は、 ショ ッ ト検出方法を用いて、 図 8に示すような 9個の異なるサブセグメン トを検出して分割する。
次に、 映像音声処理装置 1 0は、 図 7中ステップ S 2において、 互いに類似したサブセグメントを分類してグループ化する。 すなわ ち、 この場合には、 映像音声処理装置 1 0は、 ショ ッ トの視覚的な 類似性に基づいて、 図 8に示したシーンにおける 2人の人物の両方 を示す第 1番目のショ ッ トのみを要素とする第 1のグループと、 各 話し手についての 4ショ ッ トずつをまとめた第 2、 第 3グループと の 3つのグループに分類する。
また、 映像音声処理装置 1 0は、 図 7中ステップ S 3において、 シーンを特徴付けるために必要なグループを選択する。 ここでは、 図 8に示したシーンにおける第 1グループ乃至第 3グループのいず れも重要であることから、 映像音声処理装置 1 0は、 第 1グループ 乃至第 3グループの全てをシヨ ッ トシグネチヤに用いることを決定 する。
さらに、 映像音声処理装置 1 0は、 図 7中ステップ S 4において、 各グループから 1ショ ッ トを rセグメントとして選び取る。 ここで は、 映像音声処理装置 1 0は、 第 1グループ乃至第 3グループから、 それぞれ、 図 9に示す 3つのショ ッ トを rセグメントと して選び取 る。
そして、 映像音声処理装置 1 0は、 図 7中ステップ S 5において、 第 1グループ乃至第 3グループのそれぞれについて、 各グループに 含まれるショ ッ ト数の割合に応じた重みを算出する。 この場合には、 図 8に示す 9個のショ ッ トのうち、 第 1グループが 1つのショ ッ ト を要素と し、 第 2、 第 3グループがぞれぞれ 4つのショ ッ トを要素 とすることから、 映像音声処理装置 1 0は、 第 1グループ乃至第 3 グループのそれぞれについて、 1 Z 9 , 4ノ 9, 4 / 9の重み付け を得る。
このようにして、 映像音声処理装置 1 0は、 図 8に示すシーンに 関するシグネチヤと して、 図 9に示す rセグメントと重みとを得る。 つぎに、 抽出したシグネチヤを用いて、 2つのセグメントの類似 性を比較する方法について説明する。 具体的には、 2つのセグメン トの類似性を、 rセグメントに基づくシグネチヤの類似性と して定 義する。 ここで、 実際には、 上述した非類似性測定基準或いは類似 性の度合い測定基準を定義することに注意する必要がある。
ここでは、 Ρ = { ( Γ p i , W p l ) , ■ · · , ( Γ p 1 , W pm) } 及 び Q = { ( r q i , w q i ) , · · · , ( r , i , w„n) } 力 s、 そ ぞれ のシグネチヤであるものとする。 ( r, w) という表記は、 上述し たように、 rセグメ ントと、 それに付随する重み付け関数を表した ものである。 また、 d R { τ r 2) を、 2つの rセグメントについ ての非類似性測定基準とする。
まず、 ここでは、 非類似性測定基準について説明することにする。 非類似性測定基準は、 その値が小さい場合は 2つのセグメントが類 似していることを示し、 値が大きい場合は非類似であることを示す。 非類似性測定基準 d R ( r r 2 ) は、 以下の式 ( 2 ) で与える関係 を満足させる必要がある。 dn r j ,;-.] = 0 j" =;' のとき
dn ('Ί ) 0 ^ての r, = r について (2) dR について
Figure imgf000026_0001
ところで、 非類似性測定基準の中には、 或る特定の特徴量にのみ 適用可能なものもあるが、 "G. Ahanger and T.D. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7 :28 - 4, 1996" や 'し Kaufman and P. J. Rousseeu , Finding Groups in Data .'An Introduction to Cluster Analysis, John - Wiley and son s, 1990" に記載されているように、 一般には、 多く の非類似性測定 基準は、 n次元空間における点と して表される特徴量についての類 似性を測定するのに適用可能である。 その具体例は、 ユーク リ ッ ド 距離、 内積、 L 1距離等である。 ここで、 特に; L 1距離が、 ヒス ト グラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作 用することから、 映像音声処理装置 1 0は、 L 1距離を導入する。 ここで、 2つの n次元ベク トルを A, Bと した場合、 A, B間の L 1距離 dい (A, B) は、 次式 ( 3 ) で与えられる。
Figure imgf000027_0001
ここで、 下付文字 i は、 n次元ベク トル A, Bのそれぞれの i番 目の要素を示すものである。
非類似性測定基準としては、 上述したものの他にも、 幾つかの例 が知られているが、 ここでは、 それらの詳細は省略する。 映像音声 処理装置 1 0は、 上述した C P U 1 1によって、 上述したような非 類似性測定基準によ り表される 2つのシグネチヤ間の類似性を測定 し、 これらの 2つのシグネチヤの対象セグメントの類似性を、 それ らの rセグメントの類似性に基づき、 以下の方法のいずれかにより 定義する。
まず、 映像音声処理装置 1 0は、 第 1の方法と して、 次式 ( 4) に示す重み付き最小値を用いて、 2つのシグネチヤ間の距離を算出 する。 し
mm 3 ,.〗ま, dr ( )) ' ^ 】 dr (,Vi ,r . (4) また、 映像音声処理装置 1 0は、 第 2の方法と して、 次式 ( 5 ) に示す重み付き平均距離を用いて、 2つのシグネチヤ間の距離を算 出する。
Figure imgf000028_0001
さらに、 映像音声処理装置 1 0は、 第 3の方法と して、 次式 ( 6 ) に示す重み付き中央値距離を用いて、 2つのシグネチヤ間の 距離を算出する。
mm 2 w median d
Figure imgf000028_0002
さらにまた、 映像音声処理装置 1 0は、 第 4の方法と して、 "Y. Rubner, C. Tomasi and L. J. Guibas, A Metric for Distributio ns with Applications to Image Databases, Proceedings of て he 1998 IEEE International Conference on Computer Vision, Bomba y, India, January 1998" に記載されている距離計量法から応用し て、 静止画像についての力ラーショートメッセージの場合に用いた 次式 ( 7 ) に示すアース ' ムーバ (Earth Mover) の距離を用いて、 2つのシグネチヤ間の距離を算出する。 この方法では、 m X nコス ト · マ ト リ ックス Cを定義する。 ここで、 C i iは、 関数を最小にす る値である。 条 件
Figure imgf000029_0001
.. = mm νι,., . 映像音声処理装置 1 0は、 "Y. Rubner, C. Tomasi and L. J. Gu ibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Confer ence on Computer Vision, Bombay, India, January 1998" ίこ g己载 されているアルゴリ ズムを用いることによって、 この式 ( 8 ) に示 すような制約条件にしたがって、 式 ( 7 ) に示す関数を最小にする C i iの値を検出することができる。 映像音声処理装置 1 0において は、 2つのシグネチヤ間の距離の値を式 ( 7) に示す関数の最小値 と定義する。
映像音声処理装置 1 0は、 このような方法のいずれかによつて、 2つのセグメントの類似性を、 rセグメントに基づくシグネチヤの 類似性として求める。 そして、 映像音声処理装置 1 0は、 近似的な セグメント間の類似性に基づいて、 セグメントをグループ化するか 否かを決定する。
このようにすることによって、 映像音声処理装置 1 0は、 プログ ラムとフレームとを含めたビデオデータにおける或るまとまりを、 階層の高低とは無関係にグループ化することができる。
以上説明してきたように、 本発明の実施の形態と して示す映像音 声処理装置 1 0は、 ビデオデータの様々な階層におけるシグネチヤ を自動的に抽出するとともに、 2つのシグネチヤの類似性を比較す ることによって、 対応するセグメント間の類似性を比較することが できるものである。 この映像音声処理装置 1 0は、 ビデオデータの 様々な階層におけるセグメントをグループ化することを可能とする ものであって、 異なるタイプのビデオデータにも適用できるもので ある。 このように、 映像音声処理装置 1 0は、 ビデオデータの任意 の構造を自動的に探索して抽出するための汎用のツールとなり得る ものである。
なお、 本発明は、 上述した実施の形態に限定されるものではなく、 例えば、 互いに類似したサブセグメントをグループ化する際に用い る特徴量は、 上述したもの以外でもよいことは勿論である。 すなわ ち、 本発明においては、 何らかの情報に基づいて、 互いに関連し合 うサブセグメントをグループ化することができればよい。
また、 その他、 本発明の趣旨を逸脱しない範囲で適宜変更が可能 であることはいうまでもなレ、。 産業上の利用可能性 以上詳細に説明したように、 本発明にかかる信号処理方法は、 供 給された信号を構成するセグメントに含まれるサブセグメントのう ち、 セグメントの内容を代表するサブセグメントである代表セグメ ントと、 この代表セグメントに重みを割り当てる重み付け関数とに より定義されるシグネチヤを抽出する信号処理方法であって、 サブ セグメントを任意の属性に基づいて分類して得たグループのうち、 シグネチヤの対象とするグループを選択するグループ選択工程と、 このグループ選択工程にて選択したグループより、 1つの代表セグ メ ン トを選択する代表セグメント選択工程と、 この代表セグメント 選択工程にて得た代表セグメントについての重みを算出する重み算 出工程とを備える。
したがって、 本発明にかかる信号処理方法は、 セグメントに関す るシグネチヤを抽出することができ、 このシグネチヤを用いて、 信 号におけるセグメントの階層に関わらず、 互いに異なるセグメント 間の類似性を比較することができる。 このことから、 本発明にかか る信号処理方法は、 種々の信号における様々な階層のセグメントに 対し、 類似性に基づいて所望の内容を持つセグメントの探索を行う ことができる。
また、 本発明にかかる映像音声処理装置は、 供給されたビデオ信 号を構成する映像及び Z又は音声セグメントに含まれる映像及び/ 又は音声サブセグメン トのうち、 映像及びノ又は音声セグメン トの 内容を代表する映像及び/又は音声サブセグメントである代表セグ メントと、 この代表セグメントに重みを割り当てる重み付け関数と により定義されるシグネチヤを抽出する映像音声処理装置であって、 映像及びノ又は音声サブセグメントを任意の属性に基づいて分類し て得たグループのうち、 シグネチヤの対象とするグループを選択し、 この選択したグループより、 1つの代表セグメントを選択し、 得ら れた代表セグメントについての重みを算出する実行手段を備える。
したがって、 本発明にかかる映像音声処理装置は、 映像及び Z又 は音声セグメントに関するシグネチヤを抽出することが可能であつ て、 このシグネチヤを用いて、 ビデオ信号における映像及び/又は 音声セグメントの階層に関わらず、 互いに異なる映像及び Z又は音 声セグメント間の類似性を比較することが可能となる。 このことか ら、 本発明にかかる映像音声処理装置は、 種々のビデオ信号におけ る様々な階層の映像及び 又は音声セグメントに対し、 類似性に基 づいて所望の内容を持つ映像及び/又は音声セグメントの探索を行 うことができる。

Claims

請求の範囲
1 . 供給された信号を構成するセグメントに含まれるサブセグメン トのうち、 上記セグメントの内容を代表するサブセグメントである 代表セグメン トと、 この代表セグメン トに重みを割り当てる重み付 け関数とにより定義されるシグネチヤを抽出する信号処理方法であ つて、
上記サブセグメントを任意の属性に基づいて分類して得たグルー プのうち、 上記シグネチヤの対象とするグループを選択するグルー プ選択工程と、
上記グループ選択工程にて選択したグループより、 1つの代表セ グメントを選択する代表セグメント選択工程と、
上記代表セグメント選択工程にて得た代表セグメントについての 重みを算出する重み算出工程とを備えること
を特徴とする信号処理方法。
2 . 互いに異なるセグメントの各代表セグメント間の類似性を比較 して得た比較結果と、 上記重み算出工程により算出した各代表セグ メ ン トに付随する重みとを用いて、 互いに異なるセグメント間の類 似性を比較すること
を特徴とする請求の範囲第 1項記載の信号処理方法。
3 . 上記セグメントを、 上記代表セグメントの候補となる複数のサ ブセグメントに分割するセグメント分割工程と、
上記セグメント分割工程にて得たサブセグメントのうち、 上記属 性と して互いの類似性に基づいて、 上記サブセグメントを分類して グループ化するグループ化工程とを備え、 上記グループ選択工程では、 上記セグメント分割工程及び上記グ ループ化工程を経て得たグループのうち、 上記シグネチヤの対象と するために任意のグループを選択すること
を特徴とする請求の範囲第 1項記載の信号処理方法。
4 . 上記信号とは、 ビデオデータの映像信号と音声信号の少なく と も 1つであること
を特徴とする請求の範囲第 1項記載の信号処理方法。
5 . 上記重み算出工程では、 代表セグメントが対応するグループに 含まれるサブセグメン トの総数に基づいて、 上記重みを算出するこ と
を特徴とする請求の範囲第 1項記載の信号処理方法。
6 . 上記セグメントとは、 上記信号の任意の連続部分であること を特徴とする請求の範囲第 1項記載の信号処理方法。
7 . 上記サブセグメントとは、 上記セグメントに含まれる任意の連 続部分であること
を特徴とする請求の範囲第 1項記載の信号処理方法。
8 . 上記セグメントは、 上記信号を構成する連続したフレームのひ と続きから形成されるセグメント又は時間的に連続するセグメント からなるシーンであること
を特徴とする請求の範囲第 1項記載の信号処理方法。
9 . 上記セグメントは、 上記信号を構成するフレーム又は上記信号 の全体を表すプログラムであること
を特徴とする請求の範囲第 1項記載の信号処理方法。
1 0 . 供給されたビデオ信号を構成する映像及び 又は音声セグメ ントに含まれる映像及び Z又は音声サブセグメントのうち、 上記映 像及び Z又は音声セグメントの内容を代表する映像及び Z又は音声 サブセグメントである代表セグメン トと、 この代表セグメントに重 みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出 する映像音声処理装置であって、
上記映像及び Z又は音声サブセグメントを任意の属性に基づいて 分類して得たグループのうち、 上記シグネチヤの対象とするグルー プを選択し、 この選択したグループより、 1つの代表セグメントを 選択し、 得られた代表セグメントについての重みを算出する実行手 段を備えること
を特徴とする映像音声処理装置。
1 1 . 上記実行手段は、 互いに異なる映像及び 又は音声セグメン トの各代表セグメント間の類似性を比較して得た比較結果と、 算出 した各代表セグメントに付随する重みとを用いて、 互いに異なる映 像及び Z又は音声セグメント間の類似性を比較すること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
1 2 . 上記実行手段は、 上記映像及び /又は音声セグメ ントを、 上 記代表セグメントの候補となる複数の映像及び 又は音声サブセグ メントに分割し、 この得られた映像及び 又は音声サブセグメント のうち、 上記属性と して互いの類似性に基づいて、 上記映像及び 又は音声サブセグメントを分類してグループ化し、 得られたグルー プのうち、 上記シグネチヤの対象とするために任意のグループを選 択すること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
1 3 . 上記実行手段は、 代表セグメントが対応するグループに含ま れる映像及び/又は音声サブセグメントの総数に基づいて、 上記重 みを算出すること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
1 4 . 上記映像及び Z又は音声セグメントとは、 上記ビデオ信号の 任意の連続部分であること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
1 5 . 上記映像及び Z又は音声サブセグメントとは、 上記映像及び ノ又は音声セグメントに含まれる任意の連続部分であること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
1 6 . 上記映像及びノ又は音声セグメントは、 上記ビデオ信号を構 成する連続した映像及びノ又は音声フレームのひと続きから形成さ れる映像及び Z又は音声セグメント、 又は時間的に連続する映像及 びノ又は音声セグメントからなるシーンであること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
1 7 . 上記映像及びノ又は音声セグメン トは、 上記ビデオ信号を構 成する映像及び 又は音声フレーム、 又は上記ビデオ信号の全体を 表すプログラムであること
を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。
PCT/JP2000/000762 1999-02-15 2000-02-10 Procede de traitement de signal et dispositif de traitement video/audio WO2000048397A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US09/673,232 US6710822B1 (en) 1999-02-15 2000-02-10 Signal processing method and image-voice processing apparatus for measuring similarities between signals
EP00902920A EP1073272B1 (en) 1999-02-15 2000-02-10 Signal processing method and video/audio processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11/36338 1999-02-15
JP3633899 1999-02-15

Publications (1)

Publication Number Publication Date
WO2000048397A1 true WO2000048397A1 (fr) 2000-08-17

Family

ID=12467056

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/000762 WO2000048397A1 (fr) 1999-02-15 2000-02-10 Procede de traitement de signal et dispositif de traitement video/audio

Country Status (4)

Country Link
US (1) US6710822B1 (ja)
EP (1) EP1073272B1 (ja)
KR (1) KR100737176B1 (ja)
WO (1) WO2000048397A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778470B2 (en) * 2003-09-30 2010-08-17 Kabushiki Kaisha Toshiba Moving picture processor, method, and computer program product to generate metashots
US8200061B2 (en) 2007-09-12 2012-06-12 Kabushiki Kaisha Toshiba Signal processing apparatus and method thereof

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045596A1 (fr) * 1999-01-29 2000-08-03 Sony Corporation Procede de description de donnees et unite de traitement de donnees
KR20020059706A (ko) * 2000-09-08 2002-07-13 요트.게.아. 롤페즈 저장 매체상에 저장된 정보 신호를 재생하는 장치
JP2002117407A (ja) * 2000-10-10 2002-04-19 Satake Corp 動画像検索方法及びその装置
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis
US20020108112A1 (en) * 2001-02-02 2002-08-08 Ensequence, Inc. System and method for thematically analyzing and annotating an audio-visual sequence
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
CA2386303C (en) 2001-05-14 2005-07-05 At&T Corp. Method for content-based non-linear control of multimedia playback
US20030033602A1 (en) * 2001-08-08 2003-02-13 Simon Gibbs Method and apparatus for automatic tagging and caching of highlights
US7091989B2 (en) * 2001-08-10 2006-08-15 Sony Corporation System and method for data assisted chroma-keying
US7319991B2 (en) * 2001-12-11 2008-01-15 International Business Machines Corporation Computerized cost estimate system and method
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
DE60319710T2 (de) * 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
US7818444B2 (en) 2004-04-30 2010-10-19 Move Networks, Inc. Apparatus, system, and method for multi-bitrate content streaming
WO2006035883A1 (ja) * 2004-09-30 2006-04-06 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
US11216498B2 (en) * 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US7602976B2 (en) * 2006-02-17 2009-10-13 Sony Corporation Compressible earth mover's distance
US20070204238A1 (en) * 2006-02-27 2007-08-30 Microsoft Corporation Smart Video Presentation
US7577684B2 (en) * 2006-04-04 2009-08-18 Sony Corporation Fast generalized 2-Dimensional heap for Hausdorff and earth mover's distance
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US8478587B2 (en) * 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
WO2008117232A2 (en) * 2007-03-27 2008-10-02 Koninklijke Philips Electronics N.V. Apparatus for creating a multimedia file list
US8195038B2 (en) * 2008-10-24 2012-06-05 At&T Intellectual Property I, L.P. Brief and high-interest video summary generation
WO2011062071A1 (ja) * 2009-11-19 2011-05-26 日本電気株式会社 音響画像区間分類装置および方法
JP2012060238A (ja) * 2010-09-06 2012-03-22 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
CN102591892A (zh) * 2011-01-13 2012-07-18 索尼公司 数据分段设备和方法
TW201236470A (en) * 2011-02-17 2012-09-01 Acer Inc Method for transmitting internet packets and system using the same
CN105355214A (zh) * 2011-08-19 2016-02-24 杜比实验室特许公司 测量相似度的方法和设备
TWI462576B (zh) * 2011-11-25 2014-11-21 Novatek Microelectronics Corp 固定圖案的邊緣偵測方法與電路
US9185456B2 (en) 2012-03-27 2015-11-10 The Nielsen Company (Us), Llc Hybrid active and passive people metering for audience measurement
US8737745B2 (en) * 2012-03-27 2014-05-27 The Nielsen Company (Us), Llc Scene-based people metering for audience measurement
WO2013157190A1 (ja) * 2012-04-20 2013-10-24 パナソニック株式会社 音声処理装置、音声処理方法、プログラムおよび集積回路
KR101421984B1 (ko) * 2012-10-16 2014-07-28 목포해양대학교 산학협력단 깊이정보의 시간적 필터링 기반 디지털 홀로그램의 고속 생성 방법
FR3004054A1 (fr) * 2013-03-26 2014-10-03 France Telecom Generation et restitution d'un flux representatif d'un contenu audiovisuel
US9396256B2 (en) * 2013-12-13 2016-07-19 International Business Machines Corporation Pattern based audio searching method and system
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
WO2017087003A1 (en) * 2015-11-20 2017-05-26 Hewlett Packard Enterprise Development Lp Segments of data entries
CN107888843A (zh) * 2017-10-13 2018-04-06 深圳市迅雷网络技术有限公司 用户原创内容的混音方法、装置、存储介质及终端设备
US11315585B2 (en) * 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193748A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 動画像処理方法および装置
EP0711078A2 (en) * 1994-11-04 1996-05-08 Matsushita Electric Industrial Co., Ltd. Picture coding apparatus and decoding apparatus
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
EP0907147A2 (en) * 1997-09-26 1999-04-07 Matsushita Electric Industrial Co., Ltd. Clip display method and display device therefor

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
JPH08181995A (ja) 1994-12-21 1996-07-12 Matsushita Electric Ind Co Ltd 動画像符号化装置および動画像復号化装置
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US5872564A (en) * 1996-08-07 1999-02-16 Adobe Systems Incorporated Controlling time in digital compositions
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
US6373979B1 (en) * 1999-01-29 2002-04-16 Lg Electronics, Inc. System and method for determining a level of similarity among more than one image and a segmented data structure for enabling such determination
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193748A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 動画像処理方法および装置
EP0711078A2 (en) * 1994-11-04 1996-05-08 Matsushita Electric Industrial Co., Ltd. Picture coding apparatus and decoding apparatus
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
EP0907147A2 (en) * 1997-09-26 1999-04-07 Matsushita Electric Industrial Co., Ltd. Clip display method and display device therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1073272A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778470B2 (en) * 2003-09-30 2010-08-17 Kabushiki Kaisha Toshiba Moving picture processor, method, and computer program product to generate metashots
US8200061B2 (en) 2007-09-12 2012-06-12 Kabushiki Kaisha Toshiba Signal processing apparatus and method thereof

Also Published As

Publication number Publication date
EP1073272A1 (en) 2001-01-31
US6710822B1 (en) 2004-03-23
EP1073272B1 (en) 2011-09-07
EP1073272A4 (en) 2004-10-06
KR100737176B1 (ko) 2007-07-10
KR20010042672A (ko) 2001-05-25

Similar Documents

Publication Publication Date Title
WO2000048397A1 (fr) Procede de traitement de signal et dispositif de traitement video/audio
US8467610B2 (en) Video summarization using sparse basis function combination
US6724933B1 (en) Media segmentation system and related methods
US8467611B2 (en) Video key-frame extraction using bi-level sparsity
US6741655B1 (en) Algorithms and system for object-oriented content-based video search
Ardizzone et al. Automatic video database indexing and retrieval
US20120148149A1 (en) Video key frame extraction using sparse representation
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
Avrithis et al. A stochastic framework for optimal key frame extraction from MPEG video databases
JP4258090B2 (ja) ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体
Priya et al. Shot based keyframe extraction for ecological video indexing and retrieval
US20070030391A1 (en) Apparatus, medium, and method segmenting video sequences based on topic
JP2009095013A (ja) ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム
JP2006508565A (ja) 映像の未知の内容を要約する方法
US8165983B2 (en) Method and apparatus for resource allocation among classifiers in classification systems
US6996171B1 (en) Data describing method and data processor
WO2002082328A2 (en) Camera meta-data for content categorization
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
Boujemaa et al. Ikona: Interactive specific and generic image retrieval
Panchal et al. Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries
Mohamadzadeh et al. Content based video retrieval based on hdwt and sparse representation
Zhu et al. Video scene segmentation and semantic representation using a novel scheme
EP1008064A1 (en) Algorithms and system for object-oriented content-based video search
JP4224917B2 (ja) 信号処理方法及び映像音声処理装置
Mervitz et al. Comparison of early and late fusion techniques for movie trailer genre labelling

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 2000902920

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09673232

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020007011374

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2000902920

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020007011374

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1020007011374

Country of ref document: KR