WO2000045603A1 - Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux - Google Patents

Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux Download PDF

Info

Publication number
WO2000045603A1
WO2000045603A1 PCT/JP2000/000422 JP0000422W WO0045603A1 WO 2000045603 A1 WO2000045603 A1 WO 2000045603A1 JP 0000422 W JP0000422 W JP 0000422W WO 0045603 A1 WO0045603 A1 WO 0045603A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
chain
audio
segments
similar
Prior art date
Application number
PCT/JP2000/000422
Other languages
English (en)
French (fr)
Inventor
Toby Walker
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US09/647,303 priority Critical patent/US6744922B1/en
Priority to EP00901938A priority patent/EP1067800A4/en
Publication of WO2000045603A1 publication Critical patent/WO2000045603A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the present invention relates to a signal processing method for detecting and analyzing a pattern reflecting a semantic structure underlying a signal, an image reflecting a semantic structure underlying a video signal, and an image processing method.
  • the present invention relates to a video and audio processing device that detects and analyzes audio or audio patterns.
  • a typical 30-minute television program contains hundreds of shots. Therefore, in the above-mentioned conventional video extraction technology, the user needs to examine a story board in which a huge number of shots are arranged, and when understanding such a story board, It was necessary to impose a heavy burden on the user.
  • the conventional video extraction technology has a problem that shots in a conversation scene in which two persons are alternately photographed in response to a change in a speaker are often redundant. As described above, the shot is too low in the hierarchy for extracting the video structure and the amount of wasteful information is large, and the conventional video extraction technology for extracting such a shot is convenient for the user. I could't say.
  • Video extraction techniques include, for example, "H. Aoki, S. Shiraot suji and 0. Hon, A shot classification method to select effective key-frames for video browsing, IPSJ Human Interface S IG Notes, 7:43 -50, 1996 " ⁇ ⁇ Detects repeated similar shots to reduce display redundancy on storyboards, as described in JP-A-9-93588 There is.
  • this conventional video extraction technology can only be applied to video information, not audio information.
  • the present invention has been made in view of such circumstances, and solves the above-described problems of the conventional video extraction technology to solve various video data. It is an object of the present invention to provide a signal processing method and a video / audio processing apparatus for extracting a high-level video structure.
  • a signal processing method that achieves the above object is a signal processing method for detecting and analyzing a pattern that reflects a semantic structure of the content of a supplied signal.
  • a feature extraction step of extracting at least one feature representing the feature from a segment formed from a series of sequences, and using the feature, a feature pair is used for each feature.
  • a similarity measurement step of measuring the similarity between a pair of segments using this metric; and a feature quantity and a metric to calculate the similarity of the segment. Detecting a similar chain composed of a plurality of segments similar to each other.
  • Such a signal processing method detects a basic structural pattern of similar segments in a signal.
  • a video and audio processing apparatus that achieves the above object is a video and audio processing apparatus that detects and analyzes a video and / or audio pattern that reflects the semantic structure of the content of a supplied video signal.
  • a feature value extracting means for extracting at least one feature value representing the feature from a video and Z or audio segment formed from a series of continuous video and Z or audio frames constituting a video signal; Using the features, a metric for measuring the similarity between pairs of video and / or audio segments is calculated for each of the features, and the video and / or Z or audio segments are calculated based on the metric.
  • a similarity measuring means for measuring the similarity between pairs, and a feature value and a metric, a plurality of images and Z or Z or audio segments which are similar to each other among the video and Z or audio segments And a detecting means for detecting a similar chain composed of voice segments.
  • FIG. 1 is a diagram for explaining a structure of video data applied in the present invention, and is a diagram for explaining a structure of modeled video data.
  • FIG. 2 is a diagram for extracting a local video structure. It is a figure explaining a similar chain.
  • FIG. 3 is a diagram illustrating a similar chain for extracting a global video structure.
  • FIG. 4 is a block diagram illustrating a configuration of a video and audio processing device shown as an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a series of steps in detecting and analyzing a video structure in the video / audio processing apparatus.
  • FIG. 6 is a diagram for explaining dynamic feature value sampling processing in the video and audio processing apparatus.
  • FIG. 7 is a diagram illustrating the basic similarity chain.
  • FIG. 8 is a diagram illustrating a link-like chain.
  • FIG. 9 is a diagram illustrating a periodic chain.
  • Fig. 10 illustrates a series of steps in detecting the basic similarity chain using the batch clustering technology in the video and audio processing device. It is a flow chart.
  • FIG. 11 is a diagram illustrating the dissimilarity threshold.
  • FIG. 12 is a flowchart for explaining a series of steps in performing chain filtering of a basic similarity chain in the video / audio processing apparatus.
  • FIG. 13 is a flowchart illustrating a series of steps in detecting the basic similarity chain using the sequential clustering technique in the video and audio processing apparatus.
  • FIG. 14 is a flow chart illustrating a series of steps in detecting a link-like channel in the video / audio processing apparatus.
  • FIG. 15 is a flowchart for explaining a series of steps in detecting a periodic chain in the video and audio processing apparatus.
  • FIG. 16 is a flowchart illustrating a series of steps in detecting a scene using a chain in the video / audio processing apparatus.
  • FIG. 17 is a flowchart for explaining a series of steps in detecting a news item using a chain in the video / audio processing apparatus.
  • FIG. 18 is a flowchart for explaining a series of steps in detecting a play in a sport broadcast using a chain in the video / audio processing apparatus.
  • FIG. 19 is a flowchart illustrating a series of steps in performing topic detection by combining a cycle detection and a scene detection using a chain in the video / audio processing apparatus.
  • An embodiment to which the present invention is applied is a video and audio processing apparatus for automatically searching for and extracting desired contents from recorded video data.
  • this video and audio processing apparatus detects and analyzes video and audio or audio structural patterns that reflect the underlying semantic structure of video data. , A chain is abbreviated as necessary.)
  • this video / audio processing apparatus Before giving a specific description of this video / audio processing apparatus, here, first, a description will be given of video data targeted in the present invention.
  • the video data targeted in the present invention is modeled as shown in FIG. 1, and has a structure of frames, segments, and similar chains. That is, video data is composed of a series of frames in the lowest layer. In addition, video data is composed of segments formed from a series of consecutive frames as the next higher layer of the frame. Further, the video data constitutes a series of segments having a similar pattern of a certain kind with each other as a similar chain.
  • This video data includes both video and audio information. That is, in the video data, the frames include a video frame that is a single still image and an audio frame that represents audio information sampled in a short period of time, typically tens to hundreds of milliseconds / long. It is.
  • the segment is a series of images taken continuously by a single camera. It consists of a series of image frames, commonly called a shot.
  • the segment includes a video segment and an audio segment, and is a basic unit in a video structure.
  • an audio segment may be formed by delimiting a silence period in video data detected by a generally well-known method.
  • the audio segment includes, for example, voice, music, noise, silence, etc.
  • the audio segment may be formed from a series of speech frames that are classified into a small number of categories.
  • the audio segment is described in "S. Pfeiffer, S. Fischer and E. Wolfang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30".
  • a large change in a certain feature between two consecutive audio frames is detected as an audio power cut point, and the determination is made based on the audio power cut point.
  • a similar chain is a plurality of segments that are similar to each other and are ordered in time, and the structure pattern should satisfy the relationship between similar segments included in the chain and the structure of the chain. They are classified into several types depending on the constraints.
  • the index i ⁇ is Represents the segment number in the original video data of the segment, and the suffix j to i indicates that the segment is located on the time axis; i-th position in the similar chain.
  • similar chains include temporally discontinuous segments, so there may be temporal gaps between the elements of the chain. In other words, the segment S i i; S, j + 1 is not always continuous in the original video data.
  • video data has clues that allow the viewer to perceptually grasp the outline.
  • the simplest and most important clue is the structure pattern of similar video segments or audio segments, and this structure pattern is the information to be obtained by similar chains.
  • such similar chains include basic similar chains, link similar chains, local chains, and periodic chains, which are the most important and basic in video data analysis. .
  • the basic similar chain is one in which all the segments included in the basic similar chain are similar to each other.
  • Such a basic similarity chain can generally be obtained using a grouping algorithm or a clustering algorithm for grouping segments.
  • a link-like chain is one in which adjacent segments in the chain are similar to each other.
  • a local chain is a neighbor In each pair of adjacent segments, the time interval between the segments is smaller than a predetermined time.
  • a periodic chain is one in which each segment is similar to the m-th subsequent segment. That is, a periodic chain is composed of m segments that are approximately repeated.
  • Such a similar chain can then be used to extract local video structures, such as scenes, in video data, or global video structures, such as news items, as shown below.
  • a scene refers to a segment obtained by video segment (shot) detection or audio segment detection, for example, in order to describe video data at a higher level based on its semantic content. It is grouped into meaningful units using feature values that represent the features of the segment, such as the perceptual activity amount in the subsection.
  • a scene is subjective and depends on the content or genre of the video data.
  • it is assumed that a repetitive pattern of a video segment or an audio segment whose characteristic amounts indicate similarity is grouped.
  • each video segment is composed of two intersecting chains for each of the A component and the B component.
  • intersecting local chains are associated with groups of related video segments or Or it can be used to detect scenes.
  • a news program having a fixed structure as shown in FIG. 3 is considered.
  • video data having such a fixed structure repetitive occurrences-the video segment of the youth caster constitutes a global chain.
  • the newscaster segment can automatically detect news items by using a global chain to indicate the start of each news item. That is, by using the global chain, in the same figure, each topic is detected from video data composed of multiple news items such as topics A, B, C, D,. can do.
  • the video and audio processing apparatus 10 shown in FIG. 4 measures the similarity between segments using the feature amount of the segment in the video data described above, and converts the similarity chain described above. It is automatically detected and can be applied to both video and audio segments. Then, the video and audio processor 10 analyzes and analyzes similar chains to extract and re-create high-level structures such as scenes having a local video structure and topics having a global video structure from video data. Can be configured.
  • the video / audio processing device 10 includes a video division unit 11 for dividing a stream of input video data into video, audio, or both segments, and a video data division unit.
  • Information storage A data segment memory 12; a video feature extraction unit 13 as feature extraction means for extracting feature in each video segment; and an audio feature as feature extraction means for extracting a feature in each audio segment.
  • a feature amount similarity measuring unit 17 that is a similarity measuring unit that measures the similarity between two segments
  • a chain analyzing unit 18 that is an analyzing unit that detects various video structures.
  • the video division unit 11 may be, for example, an MPEG 1 (Moving Picture Experts Group phase 1), an MPEG 2 (Moving Picture Experts soro up phase 2), or a so-called DV (Digital Video).
  • Input a stream of video data consisting of video and audio data in various digitized formats, including compressed video data formats, and convert this video data into video, audio, or both segments. It is to divide.
  • the video division unit 11 can directly process the compressed video data without completely expanding the compressed video data.
  • the video division unit 11 processes the input video data and divides the video data into a video segment and an audio segment.
  • the video division unit 11 supplies division information, which is a result of dividing the input video data, to the video segment memory 12 at the subsequent stage. Further, the video division unit 11 supplies the division information to the video characteristic amount extraction unit 13 and the audio characteristic amount extraction unit 14 at the subsequent stage according to the video segment and the audio segment.
  • Video segment memory 12 is supplied from video division unit 11 The divided information of the video data is stored. In addition, the video segment memory 12 supplies division information to the chain detection unit 16 in response to an inquiry from a chain detection unit 16 described later.
  • the video feature extracting unit 13 extracts a feature for each video segment obtained by dividing the video data by the video dividing unit 11.
  • the video feature quantity extraction unit 13 can directly process the compressed video data without completely expanding it.
  • the video feature extraction unit 13 supplies the extracted feature of each video segment to the segment feature memory 15 at the subsequent stage.
  • the audio feature extraction unit 14 extracts a feature for each audio segment obtained by dividing the video data by the video division unit 11.
  • the audio feature quantity extraction unit 14 can directly process the compressed audio data without completely expanding it.
  • the audio feature amount extraction unit 14 supplies the extracted feature amount of each audio segment to the subsequent segment feature amount memory 15.
  • the segment feature memory 15 stores the feature of the video segment and the sound segment supplied from the video feature extractor 13 and the audio feature extractor 14, respectively.
  • the segment feature amount memory 15 supplies the stored feature amounts and segments to the feature amount similarity measurement unit 17 in response to an inquiry from the feature amount similarity measurement unit 17 described later.
  • the chain detection unit 16 uses the division information held in the video segment memory 12 and the similarity between a pair of segments to group video segments and audio segments into chains.
  • the chain detection unit 16 starts from each segment in the group, detects a repetition pattern of a similar segment from the segment group, and combines such segments into a chain.
  • the chain detection unit 16 collects the initial candidates of the chain and then performs the second filtering.
  • the final set of chains is determined using the tuning stage. Then, the chain detecting unit 16 supplies the detected chain to the subsequent chain analyzing unit 18.
  • the feature similarity measuring unit 17 measures the similarity between two segments.
  • the feature similarity measuring unit 17 queries the segment feature memory 15 to search for a feature related to a certain segment.
  • the chain analysis unit 18 analyzes the chain structure detected by the chain detection unit 16 and detects various local video structures and global video structures. As will be described later, the chain analyzer 18 can adjust its details in accordance with a specific application. Such a video / audio processing apparatus 10 detects a video structure by performing a series of processes as schematically shown in FIG. 5 using a similar chain.
  • the video and audio processing device 10 performs video division in step S1, as shown in FIG. That is, the video and audio processing device 10 divides the video data input to the video division unit 11 into either a video segment or an audio segment, or, if possible, both.
  • the video and audio processing device 10 does not particularly set any prerequisites for the video division method to be applied.
  • the video and audio processing device 10 is based on "G. Ahnger and i. DC Little, A survey of tecnnologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7: 28—4, 1996". Video division is performed by the method described and described.
  • step S2 the video and audio processing device 10 extracts a feature amount. That is, the video / audio processing apparatus 10 uses the video feature extraction unit 13 and the audio feature extraction unit 14 to calculate the feature representing the feature of the segment.
  • the video / audio processing device 10 for example, the time length of each segment, video features such as a color histogram and a texture feature, audio features such as a frequency analysis result, a level, and a pitch, and an activity measurement result, etc. , Calculated as applicable features.
  • the video / audio processing device 10 is not limited to these as applicable feature amounts.
  • step S3 the video and audio processing device 10 measures the similarity of the segments using the feature values. That is, the video / audio processing apparatus 10 performs the dissimilarity measurement by the feature amount similarity measurement unit 17 and measures how similar the two segments are based on the measurement criterion. The video / audio processing device 10 calculates the dissimilarity metric using the feature amounts extracted in the previous step S2.
  • the video and audio processing device 10 detects a chain in step S4. That is, the video and audio processing apparatus 10 uses the dissimilarity metric calculated in the previous step S3 and the feature amount extracted in the previous step S2 to derive a sequence of similar segments. To detect.
  • the video and audio processing device 10 performs the analysis of the chain in step S5. That is, the video / audio processing apparatus 10 determines and outputs the local video structure and / or the global video structure of the video data using the chain detected in the previous step S4. Through such a series of processing, the video and audio processing device 1 0 allows the video structure to be detected from the video data. Therefore, the user can use the result to index or summarize the content of the video data and to quickly access interesting points in the video data.
  • the video / audio processing device 10 divides the video data input to the video division unit 11 into either video segments or audio segments, or, if possible, into both segments. There are many techniques for automatically detecting video, and as described above, the video / audio processing apparatus 10 does not provide any special prerequisites for this video division method. On the other hand, video and audio processing devices
  • the accuracy of the chain detection by later steps depends essentially on the accuracy of the underlying video segmentation.
  • a feature is a segment attribute that represents the characteristics of a segment and provides data for measuring the similarity between different segments.
  • the video / audio processing apparatus 10 calculates the feature amount of each segment by the video feature amount extraction unit 13 and the audio feature amount extraction unit 14 and indicates the feature of the segment.
  • the feature values considered to be effective when used in the video / audio processing device 10 include, for example, the following.
  • a feature amount related to an image is given.
  • this will be referred to as a video feature amount.
  • a video segment is composed of a series of video frames, by extracting an appropriate video frame from the video segment, it is possible to represent the depiction contents of the video segment with the extracted video frame as a representative. It is possible. That is, the similarity of video segments can be replaced by the similarity of appropriately extracted video frames.
  • the video feature is one of the important features that can be used in the video and audio processing device 10. In this case, the video feature alone can express only static information. However, the video and audio processing apparatus 10 applies a method described later to dynamically generate a video segment based on the video feature. Features can be extracted.
  • the color in the video is an important material when determining whether two videos are similar. Judgment of similarity of images using color histograms is described in, for example, "G. Ahanger and TD.Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7 : 28—4, 1996 "(this is well-known.
  • a color histogram is an ⁇ region of a three-dimensional color space such as HSV or RG ⁇ ). Divided into pixels in the video Is calculated by calculating the relative ratio of the appearance frequency in each area. The obtained information gives an n-dimensional vector.
  • a color histogram can be directly extracted from the compressed data as described in, for example, US Pat. No. 5,708,767.
  • Such a histogram represents the overall tone of the video, but does not include time information. Therefore, the video / audio processing device 10 calculates a video correlation as another video feature amount.
  • a structure in which a plurality of similar segments cross each other is a powerful index indicating that the structure is one integrated chain structure. For example, in a conversation scene, the camera position alternates between two speakers, but the camera usually returns to almost the same position when re-shooting the same speaker.
  • the correlation based on the grayscale reduced video is a good indicator of segment similarity. Is reduced to a grayscale image of MXN size, and the image correlation is calculated using this.
  • the audio feature is a feature that can represent the content of the audio segment, and the video / audio processing apparatus 10 can use frequency analysis, pitch, level, and the like as the audio feature.
  • These speech features are known from various documents.
  • the video and audio processing device 10 can determine the distribution of frequency information in a single audio frame by performing frequency analysis such as Fourier transform.
  • the video / audio processing apparatus 10 may include, for example, an FFT (Fast Fourier Transform) component, a frequency histogram, a power spectrum, and the like to represent the distribution of frequency information over one audio segment. Can be used.
  • FFT Fast Fourier Transform
  • the video / audio processing device 10 can also use pitches such as an average pitch and a maximum pitch and audio levels such as an average loudness / maximum loudness as effective audio feature amounts representing audio segments.
  • the video and audio processing apparatus 10 includes the cepstrum coefficient and its first and second derivative coefficients as the cepstrum feature quantity, and includes an FFT spectrum or an LPC (Linear Predictive Coding).
  • the cepstrum spectrum coefficient obtained from the above can also be used.
  • Still another feature quantity is a video-audio common feature quantity.
  • the video and audio processor 10 provides useful information for representing the feature of a segment in the chain.
  • the video / audio processing apparatus 10 uses the activity as the video / audio common feature amount.
  • An activity is an index that indicates how dynamic or static the content of a segment feels. For example, if it is visually dynamic, the activity represents the degree to which the camera moves quickly along the object or to which the object being photographed changes rapidly.
  • This activity is calculated indirectly by measuring the average interframe dissimilarity of features such as color histograms.
  • dissimilarity metric for the feature value F measured between the frame i and the frame j is defined as d F (i, j)
  • the video activity V F is expressed by the following equation (1). Defined.
  • b and f are the frame numbers of the first and last frames in one segment, respectively.
  • the video and audio processing device 10 can calculate the video activity using, for example, the above-described histogram.
  • the feature amounts including the video feature amounts described above basically represent the static information of the segment.
  • the video and audio processing device 10 represents the dynamic information by a feature amount sampling method as described below.
  • the video / audio processing device 10 includes one segment. Extract one or more static features from different points in the list.
  • the video and audio processing apparatus 10 determines the number of extracted feature amounts by balancing the maximization of the fidelity and the minimization of the data redundancy in the segment representation. For example, if one image in a segment can be specified as a key frame of the segment, a histogram calculated from the key frame is a sampling feature to be extracted.
  • the video and audio processing apparatus 10 does not extract the feature amount at the fixed point as described above, but extracts a statistical representative value in the entire segment.
  • (1) includes the most well-known video and audio features, such as histograms and power spectra.
  • the number of samples is determined to be k in advance, and the video and audio processing device 10 is described in “L. Kaufman and PJ Rousseeuw, Fin ding Groups in Data: Using the well-known k-means-clustering method described in "An Introduction to Cluster Analysis, John Wiley and sons, 1990", the entire segment Is automatically divided into k different groups, and the video / audio processing apparatus 10 calculates, as sample values, the centroid value of the group (centroid) or this centroid from each of the k groups. Select a sample close to the value The complexity of this processing in the audiovisual processor 10 increases only linearly with respect to the number of samples.
  • the video and audio processor 10 was described in "L. aufman and PJ Rousseeuw, Finding Groups in Data: An Introducton to Cluster Analysis, John-Wiley and sons, 1990".
  • the k-medoids algorithm method is used to form k groups.
  • the video / audio processing apparatus 10 uses the above-mentioned medoid for the k groups as sample values for each of the k groups.
  • the method of constructing the dissimilarity metric for the feature quantity representing the extracted dynamic feature is based on the dissimilarity metric of the static feature quantity serving as the basis. This will be described later.
  • the video / audio processing apparatus 10 can represent a dynamic feature by extracting a plurality of static feature amounts and using the plurality of static feature amounts.
  • the video and audio processing device 10 can extract various feature amounts. Each of these features is typically a single segment Are often not sufficient to characterize the project. Therefore, the video and audio processing device 10 can select a set of feature amounts that complement each other by combining these various feature amounts. For example, the video and audio processing device 10 can obtain more information than the information of each feature by combining the above-described color histogram and video correlation.
  • the video / audio processing device 10 uses the feature similarity measurement unit using a dissimilarity metric, which is a function that calculates a real value for measuring the degree of dissimilarity between the two feature amounts.
  • the similarity of the segments is measured according to 17.
  • a dissimilarity metric a small value indicates that the two features are similar, and a large value indicates dissimilarity.
  • a function for calculating the dissimilarity of the two segments SS 2 related to the feature value F is defined as a dissimilarity metric d F (SLS 2 ).
  • SLS 2 dissimilarity metric
  • Such a function satisfies the relation given by the following equation (2).
  • dissimilarity metrics are applicable only to certain features, but “G. Ahanger and TDC Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996 "and” L. Kaufman and PJ Rousseeuw, Finding Groups in Data '-An Introduction to Cluster Analysis, John-Wiley and sons, 1990 ", in general, many dissimilarity metrics can be applied to measure similarity for features represented as points in n-dimensional space. Specific examples are the Euclidean distance, the inner product, the L 1 distance, etc. Here, the L 1 distance is particularly useful for various features including histograms and video correlations. To work effectively, the video and audio processor 10 introduces the L1 distance, where the two n-dimensional vectors are A and B, and the L1 distance between A and B dt, (A, B) is given by the following equation (3).
  • the subscript i indicates the i-th element of each of the ⁇ -dimensional vectors ⁇ and ⁇ .
  • the video and audio processing device 10 extracts static feature values at various points in the segment as feature values representing dynamic features. Then, the video and audio processing apparatus 10 determines the similarity between the two extracted dynamic features by using the non- Use similarity metrics. These dynamic feature dissimilarity metrics are often the dissimilarity values of the most similar static feature pairs selected from each dynamic feature. Is best determined using In this case, the dissimilarity metric between the two extracted dynamic features SF, and SF 2 is defined as in the following equation (4).
  • the function d F (FF 2) in the above equation (4) indicates a dissimilarity measurement criterion for the static feature F as a base.
  • the maximum value or the average value may be taken.
  • the video and audio processing device 10 calculates dissimilarity based on various feature amounts as a weighted combination of the respective feature amounts. That is, when k features F,, F 2,..., F k are present, the video and audio processing device 10 performs the dissimilarity measurement on the combined features represented by the following equation (5).
  • d F (S :, S 2 ).
  • the video and audio processing apparatus 10 calculates the dissimilarity metric using the feature amount extracted in step S2 in FIG. 5 and measures the similarity between the segments. it can.
  • the video / audio processing device 10 detects a similar chain representing a connection between similar segments using the dissimilarity metric and the extracted feature amount.
  • a similar chain representing a connection between similar segments using the dissimilarity metric and the extracted feature amount.
  • a chain can belong to a plurality of types.
  • a chain is referred to as a combination of defined type names.
  • a local uniform link chain indicates a local, uniform and link-like chain, as described later.
  • the types of similar chains are roughly classified into those that have restrictions on the relationship between similar segments included in the similar chains and those that have restrictions on the structure of the similar chains.
  • a chain C represents a series of segments S, ..., Sim.
  • the index i k indicates the segment number of the segment in the original video data
  • the subscript k to i indicates that the segment is located at the k-th position on the time axis in the similar chain.
  • C represents the length of the chain
  • C star 1 and C nd represent the start time and end time of chain C in the video data, respectively. More precisely, the start time of chain C is the start time of the first segment in chain C, and the end time of chain C is the end time of the last segment in chain C.
  • the basic similarity chain is a chain C in which all segments are similar to each other.
  • Basic similar chains have no structural restrictions. This basic similarity chain is often the result of a grouping or clustering algorithm for grouping similar segments.
  • This link similarity chain is, from the definition of the similarity segment described above,,,,,,,, • ⁇ can be described as
  • m periodic chains Is formed as an approximate repetition of a series of segments of.
  • the uniformity (C) of the chain C is defined as the average value of the deviation of the time interval from the equal interval time, as shown in the following equation (6), standardized by the length of the chain. Define. / JP00 touch 422
  • the uniformity (C) of the chain C expressed by the above equation (6) takes a value in the range of 0 to 1. If the value is small, it is assumed that the time interval distribution of the segment is close to a uniform distribution. Show. If the value of the uniformity uniformity (C) is smaller than a predetermined uniformity threshold, the chain C is regarded as a uniform chain.
  • the video / audio processing apparatus 10 uses a batch clustering technique or a sequential clustering technique to detect the basic similarity chains described above.
  • Batch clustering technology is a technology that detects chains collectively. However, in order to apply this technique, it is necessary to finish all video segmentation before performing chain detection.
  • the sequential clustering technology is a technology for sequentially detecting a chain. If video segmentation and feature extraction are performed sequentially, video analysis is performed while reproducing video data. It is possible to do so. Furthermore, if the video and audio processor 10 has sufficient computational power, this sequential chain detection can be performed in real time, in other words, The chain can be detected at the same time as capturing or recording data. However, sequential video analysis can create problems with its accuracy.
  • the voice processing device 10 detects a basic similarity chain through two steps as shown in FIG.
  • the video and audio processing device 10 detects a candidate chain in step S11. That is, the video and audio processing device 10 detects similar segments in the video data and combines them into clusters.
  • the clusters of the segments obtained in this way are initial candidates for detecting the basic similarity chain.
  • the video / audio processing device 10 can use any clustering technique when finding initial candidates for similar chains.
  • “L. Kaufman and PJ Rousseeuw, Finding uroups in Data: An ro nt roduction to Cluster Analysis, John-Wiley and sons, 1990” will use the hierarchical clustering method.
  • the algorithm begins by assembling the two most similar segments into a pair, and then using the similarity metric between the clusters to assemble the most similar cluster pairs at each stage.
  • a maximum function or an average function may be used.
  • this hierarchical clustering method puts all segments included in video data into a single group if there are no restrictions. Therefore, the video / audio processing apparatus 10 introduces a dissimilarity threshold ⁇ s im as shown in FIG. 11 and compares a certain segment with the other segment by comparing with the dissimilarity threshold 5 s im. Judge whether they are similar or not.
  • the dissimilarity threshold ⁇ s im is a threshold that determines how similar two segments are to be considered to belong to the same chain, as shown in the figure. Then, film image audio processing apparatus 1 0, to the extent that dissimilarity of all cluster pair does not exceed the dissimilarity threshold value [delta] im, go together Segumendo the cluster.
  • the video and audio processing device 10 may set the dissimilarity threshold ⁇ sim by the user, or may automatically determine the threshold.
  • the dissimilarity threshold ⁇ s im the optimum value depends on the content of the video data. For example, in the case of video data having a variety of video contents, the dissimilarity threshold 5 sim needs to be set to a high value. On the other hand, in the case of video data having video contents with little change, the dissimilarity threshold S sim must be set to a low value. It is necessary.
  • the dissimilarity threshold ⁇ s im when the dissimilarity threshold ⁇ s im is high, the number of detected clusters is small.
  • the dissimilarity threshold ⁇ s im the number of detected clusters is large. is there.
  • the video and audio processing device 10 it is important to determine an appropriate dissimilarity threshold value ⁇ s im in determining its performance. Therefore, in the video / audio processing apparatus 10, when the dissimilarity threshold s sim is set by a user, it is necessary to set it in consideration of the above. On the other hand, the video and audio processing device 10 can also automatically determine the effective dissimilarity threshold ⁇ sim by the following method. For example, as one method, the video and audio processor 10
  • the dissimilarity threshold 5 S ⁇ can be expressed in the form of a ⁇ + b ⁇ .
  • a and b are constants, and it has been found that setting them to 0.5 and 0.1 gives good results.
  • the video and audio processing device 10 does not need to find the dissimilarity between all the segment pairs, and the average value and the standard deviation ⁇ give sufficiently close results to the true value.
  • Sufficient segment pairs may be randomly selected from the set of all segment pairs, and their dissimilarity may be determined.
  • the video / audio processing apparatus 10 can automatically obtain an appropriate dissimilarity threshold ⁇ sim by using the average value ⁇ and the standard deviation ⁇ thus obtained. That is, for example, the video / audio processing apparatus 10 sets the total number of segment pairs to n and an arbitrary small constant. If is assumed to be C, an appropriate dissimilarity threshold ⁇ sim can be automatically determined by extracting the dissimilarity of the number of segment pairs given by C n.
  • the video and audio processing apparatus 10 sorts the segments included in each cluster in each cluster, thereby determining the initial candidates of the basic similarity chain. Obtainable.
  • step S12 the video and audio processing device 10 performs chain filtering using a quality metric corresponding to a numerical criterion indicating the quality of the chain. That is, the video / audio processing apparatus 10 measures the importance and relevance of the chain candidates in the video structure analysis, and outputs only the chain candidates exceeding a predetermined quality measurement reference threshold value as a result of the chain detection.
  • the simplest example of the relevancy measurement function used in filtering is a Boolean function indicating whether or not a chain candidate is accepted. Alternatively, a more complex relevance measurement function may be used.
  • a chain length, a chain density, a chain strength, and the like are used as a chain quality measurement standard.
  • the chain length which is owned by one chain Defined as the number of segments.
  • the video / audio processing apparatus 10 can use the chain length as a standard for measuring the chain quality when the chain length is generally small, which can be regarded as a normal noise. It depends on that. For example, if a chain has only a single segment, it has no information. In other words, the quality metric based on the chain length imposes a constraint on the minimum number of segments that the chain must hold.
  • the chain density which is defined as the ratio of the total number of segments held by a chain to the total number of segments in the video data partial area occupied by the chain. This is due to the fact that it may be preferable for the chains to be concentrated in a limited time domain.
  • the video and audio processing device 10 may use the chain density as a standard for measuring the chain quality.
  • the strength of the chain which is an indicator of how similar each segment in the chain is to each other, the more similar the segments are, the stronger the chain is. It is considered possessed.
  • the following method of measuring similarity in a chain and the average value of dissimilarity between all possible pairs of segments are used. There are a number of ways to do this, or to maximize the dissimilarity between all possible pairs of segments.
  • the intra-chain similarity measurement method refers to the similarity of the segments that make up the chain. This is a method of expressing the average dissimilarity between each segment and the most representative segment included in the chain.
  • An example of a typical segment is the chain's centroid segment.
  • the center of gravity segment in chain C is S ccnlr . Let id be this centroid segment Scentr . id is defined by the following equation (8).
  • argmin in the above formula (8) represents the selection of input S A ec to minimize the value of the expression to be evaluated.
  • the video and audio processing device i o performs chain filtering by a series of processes as shown in FIG. 12 using the above-described chain quality measurement standard.
  • step S 2 Choi Nrisu preparative C, is initialized with the candidate chain IS t, to filter the chain list C, and i cr empty state.
  • step S22 It is determined whether or not st list is empty.
  • the video and audio processing device 10 ends the series of processes because there is no candidate chain to be processed.
  • the video and audio processing apparatus 10 calculates a chain quality metric for the chain C in step S24.
  • step S25 the video and audio processing device 10 determines whether or not this chain quality metric is larger than the quality metric threshold.
  • the video / audio processing apparatus 10 shifts the processing to step S22 and performs processing relating to another chain again.
  • the video audio processing device 1 in step S 2 6, filter-ring chain list C f i, t. Add Choi Ichin C to r ".
  • the video audio processing device 1 in step S 2 7, Chi We one Nrisu preparative C, i st it is determined whether or not the empty state.
  • the video and audio processing device 10 ends the series of processes because there is no candidate chain to be processed.
  • step S23 the processing apparatus 10 shifts the processing to step S23. In this way, the video audio processing device 1 0, the process is repeated until Chiwenri be sampled C, IS t is empty.
  • the video / audio processing apparatus 10 performs the chain filtering, and determines which chain is an important chain forming the skeleton of the video structure, or a chain related to the video structure. Can be determined.
  • the video and audio processing device 10 can detect a basic similarity chain using such a batch clustering technique.
  • the video and audio processing device 10 can detect a basic similarity chain by using the above-described sequential clustering technology as a method different from the batch clustering technology. That is, the video / audio processing apparatus 10 processes segments in the video data one by one in accordance with the order of input, and repeatedly updates the chain candidate list. In this case as well, the video and audio processing device 10 performs the main process of chain detection in two stages, similarly to the batch clustering technology. That is, the video and audio processing apparatus 10 first detects clusters of similar segments using a sequential clustering algorithm. Next, the video and audio processing device 10 filters the detected clusters using the same chain quality metric as the batch clustering technology.
  • the video and audio processing apparatus 10 differs from the batch clustering technique in that the filtering of the chain proceeds at an early stage as the filtering processing when the sequential clustering technique is used.
  • a sequential clustering algorithm is used.
  • most sequential clustering is performed locally optimally.
  • the sequential clustering algorithm each time a new segment is input, a local determination is made as to whether to assign the segment to an existing cluster or to generate a new cluster including only the segment. are doing.
  • a more sophisticated sequential clustering algorithm updates the cluster division itself every time a new segment is input, in order to prevent the bias effect due to the input order of the segments.
  • the video and audio processing device 10 performs a process as shown in FIG. 13 as an example of a sequential clustering algorithm.
  • the video data divided into segments has segments S,..., S.
  • a series of processes including a chain analysis process will be described.
  • the video and audio processing apparatus 10 initializes the chain list C and isl to an empty state in step S31 , and sets the segment number i to 1 in step S32. Set.
  • step S33 the video and audio processing device 10 It is determined whether the segment number i is smaller than the total segment number n.
  • the video and audio processing device 10 ends the series of processes because there is no target segment.
  • step S34 the segment S i, that is, the segment S! Capture
  • step S42 when the chain lists C and sl are empty, the video and audio processing device 10 shifts the processing to step S42.
  • the chain C tai n is defined as the following equation (10).
  • d sc (CS) represents the dissimilarity metric between the chain C and the segment S, and is given by the following equation (11).
  • minimum dissimilarity d mi n is greater if than dissimilarity threshold [delta] S im includes a video audio processing device 1 0, the process proceeds to step S 4 2 treatment, as the only element segment A new chain C having only the segment si. Is generated, and in step S43, a new chain C n is generated. w is added to the chain list C lisl , and the process proceeds to step S 39 .
  • the video audio processing device 1 0, in step S 3 8, the segments S i Choi one down C mi n to add. That is, the video and audio processing device 10 is assumed to be C min —C min US i.
  • the video and audio processing device 10 filters the chain in step S39. That is, as described above, the video and audio processing apparatus 10 measures the quality of the chain C for each of the element chains C e C and ist , and only the chains having a quality metric exceeding the quality metric threshold are measured. And add it to the chain list C fil ⁇ r. Further, the video and audio processing device 10 sequentially analyzes the chains in step S40. That is, the video and audio processing device 10 outputs the filtered chain list C filtcr at that time. Pass d through the analysis module.
  • step S41 the video and audio processing device 10 adds 1 to the segment number i, and shifts to the process of step S33.c In this way, the video and audio processing device 10 The above series of processing is repeated until the segment number i becomes larger than the total number of segments n, and each element chain of the chain list C list when the segment number i becomes larger than the total number of segments n It is detected as a similar channel.
  • the sequential clustering algorithm may determine whether to continue or end the process in step S33 in the figure, depending on whether or not there is a continuous segment input.
  • the video and audio processing device 10 can detect a basic similarity chain using the sequential clustering technique.
  • the detection of link similarity chains in the video and audio processing device 10 can be considered as a special case of basic similarity chain detection.
  • the video and audio processing apparatus 10 uses a processing similar to that shown in FIG. 14 as a link similarity chain detection method using a sequential clustering algorithm. Work.
  • video data divided into segments, segment S ,, ⁇ ⁇ ⁇ , assumed to have S n.
  • a series of processes including the chain analysis process will be described.
  • the video and audio processing device 10 initializes the chain list C st to an empty state in step S51, and sets the segment number i to 1 in step S52.
  • step S53 the video and audio processing device 10 determines whether or not the segment number i is smaller than the total segment number n.
  • the video and audio processing device 10 ends the series of processing because there is no target segment.
  • the video and audio processing apparatus 10 takes in the segment S, that is, the segment S in this case, in step S54, and in step S55, , segment S, the non-similarity to ask the chain C mi n is minimal.
  • the chain C min is defined as in the following equation (12).
  • d sc (C, S) also represents a dissimilarity metric between the chain and the segment S. In the link similarity chain detection, this dissimilarity metric is used.
  • dissimilarity metric d sc (C, S) is different from the above dissimilarity criterion (11), which is used when detecting the basic similarity chain, and Given as dissimilarity to the last element segment in chain C.
  • step S56 the video-audio processing apparatus 10 uses the above-described dissimilarity threshold sim to determine the minimum dissimilarity. Is smaller than the dissimilarity threshold s im .
  • step S61 the video and audio processing apparatus 10 shifts to the process of step S61, and the segment S as the only element segment It generates a new shelf chain C new with i only, in step S 6 2, by adding a new cHAIN down C new Choi one Nrisu preparative st, the process proceeds to processing in step S 5 8.
  • video audio processing device 1 in step S 5 7, adds the segment S i to the end of the chain one down C mi n. That is, the video and audio processing device 10 sets C min —C min , S i.
  • the video and audio processing device 10 filters the chain in step S58. That is, as described above, the video and audio processing apparatus 10 measures the quality of the chain C for each of the element chains C e C and ist , and has a quality metric that exceeds the quality metric threshold. Select only the chain that you want to use and enter it in the chain list C FIL t. Add to rc ⁇ i . Note that the video and audio processing device 10 may omit this step.
  • step S59 the video / audio processing apparatus 10 sequentially analyzes the chains. That is, the video / audio processing apparatus 10 sends the filtered chain list C at that time. "Pass through the analysis module.
  • step S60 the video and audio processing device 10 adds 1 to the segment number i and shifts to the process of step S53.c In this way, the video and audio processing device 10 The above series of processing is repeated until the segment number i becomes larger than the total number of segments n, and the respective element chains of the chain list CM st when the segment number i becomes larger than the total number of segments ⁇ are linked. Detect as a similar chain.
  • the video / audio processing apparatus 10 can detect a link similarity chain using such a sequential clustering technique.
  • the sequential clustering algorithm may determine whether to continue or end the process in step S53 in the figure, depending on whether or not there is an input of a segment.
  • the periodic chain C ⁇ d consists of k different basic similar chains or Can be regarded as ⁇ C ,, ⁇ ⁇ ⁇ , C k ⁇ consisting of a series of link-like chains.
  • the segments in the periodic chain C c yc M c are described as..., S ⁇ , and C (S i) denotes the chain number 1,..., K of the origin of the segment S i.
  • the video and audio processor 10 performs a series of processes as shown in FIG. Look for an approximate periodic chain in the video data.
  • the video / audio processing apparatus 10 can add a constraint condition that the basic cycle chain from which the video / audio processing apparatus 10 is based must be uniform as necessary. Here, the processing performed under this constraint will be described.
  • the video and audio processing device 10 detects a basic cycle chain included in video data and generates an initial chain list based on the basic cycle chain. Then, the initial chain list is updated so that all of the basic periodic chains included in the initial chain list satisfy the uniform chain constraint. That is, in step S71, the video / audio processing apparatus 10 obtains the initial chain list C, in using the above-described algorithm for detecting the basic similar chain or the link similar chain.
  • step S72 the video and audio processing device 10 checks the uniformity of each chain C included in the initial chain list, and if the chain C is not uniform, It is divided into multiple uniform sub-chains that maximize the time interval. Subsequently, the video and audio processing device 10 filters and selects the obtained uniform sub-chains using the chain quality metric as described in the algorithm for detecting the basic similar chain or the link similar chain described above. Add uniform sub chain which is initially Choi Ichin list C, and i st.
  • step S73 the video and audio processing device 10 selects a pair of chains that overlap with each other in time from the chain lists C and ist.
  • the video audio processing device 1 determines whether Chiwen CC 2 which overlap like this exists.
  • the video and audio processing device 10 ends the series of processes assuming that the chain list Clist already includes a plurality of periodic chains.
  • step S 7 5 to step S 7 8 constituting a single periodic chain two chains CC 2 is sewn
  • step S 7 5 to step S 7 8 constituting a single periodic chain two chains CC 2 is sewn
  • the consistency between each period is evaluated in a periodic chain that combines the two periodic chains.
  • the video and audio processing apparatus 10 forms a new periodic chain CM by combining the two chains CC2 in step S75.
  • a segment in the chain C M SS 2, ⁇ ⁇ • and be expressed as S i cM i.
  • the video audio processing device 1 0, in step S 7 6, segment S, occurrence source chain number C (S,) and is C, the arrangement of the chain number C (S,), C ( S 2 ),. ⁇ ⁇ , C for each occurrence of the C (SI CM I), i.e., the boundary of immediately before the segment belonging to the same chain as the segment S i appears, Sabuche chain C M Ichin CM 1, CM Decomposes into 2 ,, Cr.
  • the video and audio processing device 10 obtains a list of sub-chains as shown in the following equation (14).
  • the video audio processing device 1 in step S 7 7, most find high frequency sub-chain C M EYELE. That is, the video and audio processing device 10 performs a process as shown in the following equation (15).
  • the video audio processing device 1 0, in step S 7 8, most high sub-chain c M ce frequency of appearance is to evaluate whether Uruka not become one rotation period of the original switch over emissions c M. That is, the video audio processing device 1 0 includes a matching coefficient mesh, as shown in the following equation (1 6), C M obtained in step S 7 6.
  • the occurrence frequency of "'.” Is defined as the ratio to the total number of sub-steps, and in the following step S79, it is determined whether or not this matching coefficient exceeds a predetermined threshold value.
  • the video and audio processing device 10 shifts to the process of step S73, finds another overlapping chain, and repeats the same process.
  • step S 8 How, if the matching coefficient exceeds the threshold value, the video audio processing device 1 0, in step S 8 0, by removing the chain C ,, C 2 chain list from C, ist, step S 8 In 1
  • the chain squirrel is added to C lisl , and the process proceeds to step S73 .
  • the video and audio processing apparatus 10 repeats such a series of processing for all the periodic chains included in the chain lists C and ist until there is no overlapping chain, thereby obtaining the final cycle. You can obtain the chain list C lisl that includes the target chain.
  • the video and audio processing device 10 can detect various chains of similar segments using the dissimilarity measurement criterion and the extracted feature amounts.
  • the video / audio processing apparatus 10 determines and outputs the local video structure and the video or global video structure of the video data using the detected chains.
  • the basic structural flutter that occurs in video data is the basic structural flutter that occurs in video data
  • a scene is the most basic unit of local video structure positioned above the level of a segment, and consists of a series of semantically related segments.
  • the video / audio processing apparatus 10 can detect these scenes using the chains.
  • the condition that the chain should satisfy is that, for all the segments included in the chain, the time interval between consecutive segments is called a time threshold. It must not exceed the specified value.
  • this condition is satisfied This chain is called a local chain.
  • the video and audio processing device 10 performs a series of processes as shown in FIG. 16 in order to detect a scene using a chain.
  • the video and audio processing apparatus 10 obtains a local chain list in steps S91 to S94 as shown in FIG. That is, in step S91, the video / audio processing apparatus 10 obtains one set of initial chain lists by using the above-described basic similarity chain detection algorithm.
  • the video and audio processing device 10 removes the chain C from the chain list in step S93.
  • the video and audio processing device 10 adds each sub-chain C i to the chain list in step S94. At the end of this process, all chains are local.
  • the video audio processing device 1 in step S 9 5, from the Choi Nrisu Bok, Chiwe one down cc 2 that overlap a pair of intersecting temporally, i.e., ® cc 2 I [c , slart, seek the ci ond [ct S ⁇ l, C a 0 "'] chain C ,, C 2 of the place is.
  • the video audio processing device 1 in step S 9 6, you determine whether Chiwe Ichin C ,, C 2, which overlap like this exists.
  • the video / audio processing apparatus 10 determines that one scene exists for each chain included in the chain list, and performs a series of processing. To end.
  • the chain CC 2 are duplicates are present, video audio processing device 1 0, in step S 9 7, overlapping CHAIN down C i, the combined C 2, new chain C Form M.
  • step S 9 8 by removing the chain Ichin CC 2 that are duplicated from Ji Enrisu DOO, add the chain Ichin C M, thereafter again Step S 9 5 Shift to the process and repeat the same process.
  • the video / audio processing apparatus 10 can detect a scene, which is a local structural pattern in video data, by using the chain.
  • the video and audio processing apparatus 10 performs, in steps S91 to S94, for each of the speakers' segments, Find local chains. Then, in step S97, the video / audio processing apparatus 10 puts these chains together to form a single large chain representing the entire scene.
  • the video and audio processing device 10 can detect a scene in a conversation scene.
  • the video / audio processing apparatus 10 can also sequentially detect scenes by performing the above-described algorithm sequentially. Next, a case where a news item is detected as a global structure pattern will be described.
  • a news program has a periodic structure in which the news item starts with, for example, an introductory sentence by an anchor, and is followed by one or more reports from the site. That is, such a video structure can be regarded as a simple periodic structure having one cycle from the anchor shot to immediately before the next anchor shot.
  • the video and audio processing device 10 performs a series of processes as schematically shown in FIG. 17 in order to automatically detect a news item using a chain.
  • step S101 the video and audio processing device 10 detects a periodic chain using the above-described periodic chain detection algorithm. By performing this step, the video and audio processing device 10 can obtain a list of the periodic chains.
  • each cycle may or may not represent a news item.
  • step S102 the video and audio processing apparatus 10 removes all the periodic chains whose period is shorter than a predetermined ratio of the entire length of the video data. That is, by performing this step, the video and audio processing apparatus 10 can eliminate a short-period periodic chain that is unlikely to represent a news item. Such periods can occur, for example, when the moderator interviews the guest or when other short-term periods appear in news broadcasts.
  • step S103 the video and audio processing apparatus 10 obtains a temporally shortest periodic chain among all the periodic chains remaining in step S102, and this periodic chain is used as another periodic chain. If it overlaps the periodic chain, remove it from the list of periodic chains. The video / audio processing apparatus 10 repeats this processing until any periodic chains do not overlap with other periodic chains.
  • the list of the periodic chains remaining after the completion of step S103 includes the detected news item list. That is, each cycle of the list of periodic chains obtained in step 103 represents one news item. In this way, the video and audio processing device 10 can automatically detect the two-use item using the chain.
  • the video and audio processing device 10 can be used without any problem even if the newscaster changes during a news broadcast, for example, between the main broadcast, sports, and business segments. It can work.
  • Many sports are characterized by having a fixed pattern in which play is composed by repeating the same series of steps many times.
  • a pitcher throws a pole and a batter tries to hit the ball to play.
  • other team sports having such a play structure include, for example, foot pole and rugby.
  • the video data will represent the repetition of the segment group for each part of the play. That is, in the video data, the segment representing the pitcher is followed by the segment representing the batter, and when the ball is hit, the segment representing the outfield player is included. Therefore, when the video and audio processing device 10 applies the chain detection to the baseball broadcast, the segment representing the pitcher is detected as one chain in the video data, and the segment representing the batter is another segment. One chain is occupied, and the other chains are outfields and various scenes.
  • the play structure is a periodic video that can be detected using the above-described periodic chain detection method.
  • Another example is tennis.
  • video data forms a cycle such as serve, volley, serve, volley, and so on.
  • the segments representing each serve are visually similar to each other, the video and audio processing device 10 can use such a segment to detect play.
  • the play structure of the game can be approximately detected.
  • the play structure is that one athlete will complete an activity, but each athlete will all perform approximately the same activity. You can be considered as doing.
  • each competitor makes one jump, and the next competitor makes a similar jump.
  • the video data in the broadcast of the jump competition generally consists of a sequence of segments in which the competitor prepares for a jump, slides down the runway, and lands.
  • video data consists of repeating such a series of segments for each competitor.
  • the video and audio processing device 10 when automatically detecting a play in a sports broadcast by chain analysis, it may be necessary to provide further restrictions in order to eliminate inappropriate chains.
  • the type of restriction that is appropriate depends on the type of sport.For example, the video and audio processing device 10 detects that only a detected periodic chain having a sufficiently long cycle is detected as play. Empirical rules can be used.
  • the video and audio processing device 10 performs a series of processes as schematically shown in FIG. 18 in order to automatically detect play in a sports broadcast using a chain.
  • the video and audio processing device 10 uses the above-described periodic chain detection algorithm in step S111. To detect periodic chains.
  • step S112 the video and audio processing apparatus 10 applies a quality condition to the obtained list of chains, filters the chain list, and filters out the non-essential chains.
  • c- quality conditions to remove include leaving only periodic chains that span most of the program.
  • the video and audio processing device 10 may add a constraint condition specific to the target sport.
  • the video and audio processing device 10 can automatically detect play in sports broadcasting by chain analysis. Next, a case where a topic is detected by combining period detection and scene detection will be described.
  • video data in many television programs such as dramas, comedies, and varieties is composed of the scenes described above.
  • video data may have, as a higher-level structure, a topic structure composed of a sequence of several related scenes.
  • This topic is not necessarily similar to the topic in youth broadcasts, which always starts with the introduction segment by the studio presenter.
  • a segment of the logo image or a segment of the moderator may be used instead of the introductory segment, or as an audible example, the same theme music will always be the same each time a new topic starts. May be swept away.
  • the video and audio processing device 10 performs a series of processes as schematically shown in FIG. 19 in order to perform topic detection by combining cycle detection and scene detection using a chain.
  • step S121 the video / audio processing apparatus 10 detects a basic similarity chain and identifies a set of basic similarity chains.
  • step S12.2 the video and audio processing device 10 performs periodic chain detection, and identifies a list of one set of periodic chains.
  • step S123 the video and audio processing device 10 uses the basic similarity list obtained in step S121 to apply the algorithm shown in FIG. Extract the structure. As a result, the video and audio processing device 10 can obtain a list of scenes.
  • step S124 the video and audio processing device 10 compares the list of periodic chains obtained in step S122 with each scene element detected in step S123.
  • the video / audio processing apparatus 10 removes all the periodic chains having a short cycle from the list of detected scenes. In the resulting remaining periodic chain, each cycle has several scenes, each of which is identified as a candidate topic.
  • the video and audio processing apparatus 10 can perform topic detection by combining period detection using a chain and scene detection. Note that the video and audio processing device 10 can also improve the accuracy of topic detection by setting other restrictions and quality conditions in step S124.
  • the video and audio processing apparatus 10 can determine and output various local video structures and various or global video structures of video data using the detected various chains.
  • the video and audio processing device 10 shown as an embodiment of the present invention can detect a similar chain composed of a plurality of video segments or audio segments that are similar to each other. is there. Then, the video / audio processing apparatus 10 can extract a high-level video structure by analyzing these similar chains. In particular, the video and audio processing device 10 can analyze the local video structure and the global video structure in a common framework.
  • the video audio processing device 1 0 can be carried out fully automatically processing the user also pre is not necessary to know the structure of the content of the video data to c, the video audio processing device 1 0 includes a sequential By using chain detection, it is also possible to analyze the video structure sequentially, and if the computing power of the platform is sufficiently powerful, it is possible to perform the video structure analysis in real time. is there.
  • the video and audio processing device 10 can be used not only for video data recorded in advance but also for live video broadcasting.
  • the video and audio processing device 10 is applicable to live sports broadcasting in play detection in sports broadcasting.
  • the video and audio processor 10 provides a new high-level access basis for video browsing as a result of detecting the video structure.
  • the video / audio processing apparatus 10 accesses the video data based on the content by visualizing the content of the video data using a high-level video structure such as a topic instead of a segment. For example, by displaying the scene, the video / audio processing device 10 allows the user to quickly know the gist of the program and quickly find the part of interest.
  • the video and audio processing device 10 can use the result of the topic detection in the news broadcast to enable the user to select and view in news item units. Enable powerful and new ways of access.
  • the video / audio processing apparatus 10 can provide a basis for automatically creating a summary of video data as a result of video structure detection.
  • the video data is decomposed into components that can be reconstructed and the appropriate segment It is necessary to combine
  • the video structure detected by the audiovisual processor 10 provides the basic information for creating such a summary.
  • the video / audio processing device 10 can analyze the video data for each genre. For example, the video and audio processing device 10 can detect only a tennis match.
  • the video / audio processing device 10 can edit video data based on its contents by being incorporated into a video editing system in a broadcasting station.
  • the video and audio processing device 10 can be It can be used to analyze video videos and automatically extract video structures from home videos. Furthermore, the video / audio processing device 10 can be used to summarize the contents of video data and perform editing based on the contents.
  • the video and audio processing device 10 can use the video chain as a tool to supplement the analysis of the content of the video data by hand.
  • the video and audio processing apparatus 10 can facilitate navigation of video data contents and video structure analysis by visualizing the result of the chain detection.
  • the video and audio processor 10 since the video and audio processor 10 has a very simple algorithm and high computational efficiency, it should be applied to household electronic devices such as set-top boxes, digital video recorders, and home servers. Can be.
  • the signal processing method is a signal processing method for detecting and analyzing a pattern that reflects the semantic structure of the content of a supplied signal, A segment formed from a series of consecutive frames that make up the signal
  • a feature value extraction step of extracting one or more feature values is calculated for each of the feature values.
  • the signal processing method can detect a basic structural pattern composed of similar segments in a signal, and analyze how these structural patterns are combined to obtain a high level.
  • the c can be extracted structure level
  • the video audio processing device according to the present invention
  • video and audio be analyzed detected a video and or audio pattern reflecting the semantics of the contents of the supplied video signal
  • a processing device for extracting at least one feature amount representing a feature from a video and / or audio segment formed from a sequence of continuous video and / or audio frames constituting a video signal Using the feature extraction means and the feature, the similarity between the video and / or audio segment pair for each feature
  • a similarity measuring means for calculating similarity between the pairs of video and / or audio segments using the metrics, and video and / or audio using the features and the metrics.
  • detecting means for detecting a similar chain composed of a plurality of video and audio or audio segments that are similar to each other among the segments.
  • the video and audio processing apparatus can determine and output a basic structural pattern of a similar video and / or audio segment in a video signal, and output these structural patterns. By analyzing how these are combined, high-level video structures can be extracted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

明細書 信号処理方法及び映像音声処理装置 技術分野 本発明は、 信号の基礎となる意味構造を反映するパターンを検出 して解析する信号処理方法及びビデオ信号の基礎となる意味構造を 反映する映像及びノ又は音声のパターンを検出して解析する映像音 声処理装置に関する。 冃景技術 例えばビデオデータに録画されたテレビ番組といった大量の異な る映像データにより構成される映像アプリケーショ ンの中から、 興 味のある部分等の所望の部分を探して再生したい場合がある。
このように、 所望の映像内容を抽出するための一般的な技術とし ては、 アプリケーショ ンの主要場面を描いた一連の映像を並べて作 成されたパネルであるス トーリーボードがある。 このス ト一リーボ ードは、 ビデオデータをいわゆるショ ッ トに分解し、 各ショッ トに おいて代表される映像を表示したものである。 このよ うな映像抽出 技術は、 そのほとんどが、 例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital v ideo, J. of Visual Communication and Image Representation 7: 28-4, 1996" に記載されているように、 ビデオデータからショ ッ ト を自動的に検出して抽出するものである。
ところで、 例えば代表的な 3 0分のテレビ番組中には、 数百もの ショッ トが含まれている。 そのため、 上述した従来の映像抽出技術 においては、 ユーザは、 抽出された膨大な数のショ ッ トを並べたス トーリ一ボードを調べる必要があり、 このようなス トーリ一ボード を理解する際、 ユーザに大きな負担を強いる必要があった。 また、 従来の映像抽出技術においては、 例えば話し手の変化に応じて交互 に 2者を撮影した会話場面におけるショ ッ トは、 冗長のものが多い という問題があった。 このように、 ショ ッ トは、 ビデオ構造を抽出 する対象としては階層が低すぎて無駄な情報量が多く、 このような ショッ トを抽出する従来の映像抽出技術は、 ユーザにとって利便の よいものとはいえなかった。
また、 他の映像抽出技術としては、 例えば "A. Merl ino, D. Mor ey and M. aybury, Broadcast news navi gat ion us ing story seg mentat ion, Proc. of ACM Mul t imed i a 97, 1997" ゃ特開平 1 0— 1 3 6 2 9 7号公報に記載されているように、 ニュースやフッ トボー ルゲームといった特定の内容ジャンルに関する非常に特殊な知識を 用いるものがある。 しかしながら、 この従来の映像抽出技術は、 目 的のジャンルに関しては良好な結果を得ることができるものの他の ジャンルには全く役に立たず、 さらにジャンルに限定される結果、 容易に一般化することができないという問題があった。
さらに、 他の映像抽出技術としては、 例えば U. S. Patent #5, 708, 767号公報に記載されているように、 いわゆるス トーリ一ュニッ トを 抽出するものがある。 しかしながら、 この従来の映像抽出技術は、 完全に自動化されたものではなく、 どのショ ッ トが同じ内容を示す ものであるかを決定するために、 ユーザの介入が必要であった。 ま た、 この従来の映像抽出技術は、 処理に要する計算が複雑であると ともに、 適用対象として映像情報のみに限定されるといった問題も めつ 7こ。
さらにまた、 他の映像抽出技術としては、 例えば特開平 9— 2 1 4 8 7 9号公報に記載されているように、 ショ ッ ト検出と無音部分 検出とを組み合わせることによりショ ッ トを識別す.るものがある。 しかしながら、 この従来の映像抽出技術は、 無音部分がショ ッ ト境 界に対応した場合のみに限定されたものであった。
また、 他の映像抽出技術としては、 例えば "H. Aoki, S. Shiraot suji and 0. Hon, A shot classification method to select eff ective key-frames for video browsing, IPSJ Human Interface S IG Notes, 7:43-50, 1996" ゃ特開平 9— 9 3 5 8 8号公報に記載さ れているように、 ス トーリーボードにおける表示の冗長を低減する ために、 反復された類似ショ ッ トを検出するものがある。 しかしな がら、 この従来の映像抽出技術は、 映像情報のみに適用できるもの であり、 音声情報に適用できるものではなかった。
さらに、 これらのような映像抽出技術は、 いわゆる局所的ビデオ 構造や、 特殊な知識に基づく大局的ビデオ構造しか検出することが できなかった。 発明の開示 本発明は、 このような実情に鑑みてなされたものであり、 上述し た従来の映像抽出技術の問題を解決し、 種々のビデオデータにおけ る高いレベルのビデオ構造を抽出する信号処理方法及び映像音声処 理装置を提供することを目的とするものである。
上述した目的を達成する本発明にかかる信号処理方法は、 供給さ れた信号の内容の意味構造を反映するパターンを検出して解析する 信号処理方法であって、 信号を構成する連続したフレームのひと続 きから形成されるセグメントから、 その特徴を表す少なく とも 1つ 以上の特徴量を抽出する特徴量抽出工程と、 特徴量を用いて、 特徴 量のそれぞれ毎に、 セグメン卜の対の間の類似性を測定する測定基 準を算出して、 この測定基準によりセグメントの対の間の類似性を 測定する類似性測定工程と、 特徴量と測定基準とを用いて、 セグメ ン トのうち、 互いに類似する複数のセグメントから構成される類似 チェーンを検出する検出工程とを備えることを特徴としている。 このような本発明にかかる信号処理方法は、 信号において類似し たセグメン 卜の基本的な構造パターンを検出する。
また、 上述した目的を達成する本発明にかかる映像音声処理装置 は、 供給されたビデオ信号の内容の意味構造を反映する映像及び 又は音声のパターンを検出して解析する映像音声処理装置であって、 ビデオ信号を構成する連続した映像及び Z又は音声フレームのひと 続きから形成される映像及び Z又は音声セグメン卜から、 その特徴 を表す少なく とも 1つ以上の特徴量を抽出する特徴量抽出手段と、 特徴量を用いて、 特徴量のそれぞれ毎に、 映像及び/又は音声セグ メン卜の対の間の類似性を測定する測定基準を算出して、 この測定 基準により映像及び Z又は音声セグメントの対の間の類似性を測定 する類似性測定手段と、 特徴量と測定基準とを用いて、 映像及び Z 又は音声セグメントのうち、 互いに類似する複数の映像及び Z又は 音声セグメン卜から構成される類似チェーンを検出する検出手段と を備えることを特徴と している。
このような本発明にかかる映像音声処理装置は、 ビデオ信号にお いて類似した映像及び 又は音声セグメントの基本的な構造パター ンを決定して出力する。 図面の簡単な説明 図 1は、 本発明において適用するビデオデータの構成を説明する 図であって、 モデル化したビデオデータの構造を説明する図である 図 2は、 局所的ビデオ構造を抽出する類似チェーンを説明する図 である。
図 3は、 大局的ビデオ構造を抽出する類似チェーンを説明する図 である。
図 4は、 本発明の実施の形態として示す映像音声処理装置の構成 を説明するブロック図である。
図 5は、 同映像音声処理装置において、 ビデオ構造を検出して解 析する際の一連の工程を説明するフローチヤ一トである。
図 6は、 同映像音声処理装置における動的特徴量サンプリング処 理を説明する図である。
図 7は、 基本類似チ ーンを説明する図である。
図 8は、 リンク類似チェーンを説明する図である。
図 9は、 周期的チェーンを説明する図である。
図 1 0は、 同映像音声処理装置において、 バッチクラスタ リ ング 技術を用いて基本類似チェーンを検出する際の一連の工程を説明す るフローチヤ一トである。
図 1 1は、 非類似性閾値を説明する図である。
図 1 2は、 同映像音声処理装置において、 基本類似チェーンのチ ヱーンフィルタリングを行う際の一連の工程を説明するフローチヤ ートである。
図 1 3は、 同映像音声処理装置において、 逐次クラスタリング技 術を用いて基本類似チ ーンを検出する際の一連の工程を説明する フロ一チヤ一トである。
図 1 4は、 同映像音声処理装置において、 リ ンク類似チヱーンを 検出する際の一連の工程を説明するフ口一チャートである。
図 1 5は、 同映像音声処理装置において、 周期的チェーンを検出 する際の一連の工程を説明するフローチヤ一トである。
図 1 6は、 同映像音声処理装置において、 チェーンを用いてシー ンを検出する際の一連の工程を説明するフローチヤ一トである。 図 1 7は、 同映像音声処理装置において、 チヱ一ンを用いてニュ ース項目を検出する際の一連の工程を説明するフローチヤ一トであ る。
図 1 8は、 同映像音声処理装置において、 チェーンを用いてスポ ーッ放送におけるプレイを検出する際の一連の工程を説明するフロ 一チヤ一トである。
図 1 9は、 同映像音声処理装置において、 チェーンを用いて周期 検出とシーン検出とを組み合わせたトピック検出を行う際の一連の 工程を説明するフローチヤ一トである。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について図面を参照 しながら詳細に説明する。
本発明を適用した実施の形態は、 録画されたビデオデータから所 望の内容を自動的に探し出して抽出する映像音声処理装置である。 特に、 この映像音声処理装置は、 ビデオデータの基礎となる意味構 造を反映する映像及びノ又は音声の構造パターンを検出及び解析す るものであり、 この解析を行うために、 類似チェーン (以下、 必要 に応じてチェーンと略記する。 ) という概念を導入したものである。 この映像音声処理装置の具体的な説明を行う前に、 ここではまず本 発明において対象とするビデオデータに関する説明を行う。
本発明において対象とするビデオデータについては、 図 1に示す ようにモデル化し、 フレーム、 セグメント、 類似チェーンという構 造を有するものとする。 すなわち、 ビデオデータは、 最下位層にお いて、 一連のフレームにより構成される。 また、 ビデオデータは、 フレームの 1つ上の階層と して、 連続するフレームのひと続きから 形成されるセグメントにより構成される。 さらに、 ビデオデータは、 互いに特定の種類の類似パターンを有する一連のセグメントを類似 チェーンとして構成する。
このビデオデータは、 映像及び音声の両方の情報を含む。 すなわ ち、 このビデオデータにおいてフレームには、 単一の静止画像であ る映像フレームと、 一般に数十〜数百ミ リセカンド /長といった短 時間においてサンプルされた音声情報を表す音声フレームとが含ま れる。
また、 セグメントは、 単一のカメラにより連続的に撮影された映 像フレームのひと続きから構成され、 一般にはショ ッ トと呼ばれる。 そして、 セグメントには、 映像セグメントと音声セグメントとが含 まれ、 ビデオ構造における基本単位となる。 これらのセグメントの 中で、 特に音声セグメントについては、 多くの定義が可能であり、 例として次に示すようなものが考えられる。 まず、 音声セグメント は、 一般によく知られている方法により検出されたビデオデータ中 の無音期間により境界を定められて形成される場合がある。 また、 音声セグメントは、 "D. Kimber and L. Wilcox, Acoustic Segmen tation for Audio Browsers, Xerox Pare Technical Report" ίこ g己 載されているように、 例えば、 音声、 音楽、 ノイズ、 無音等のよう に少数のカテゴリに分類された音声フレ一ムのひと続きから形成さ れる場合もある。 さらに、 音声セグメントは、 "S. Pfeiffer, S. Fischer and E. Wolf ang, Automatic Audio Content Analysis, P roceeding of ACM Multimedia 96, Nov. 1996, pp21-30" に記載さ れているように、 2枚の連続する音声フレーム間の或る特徴におけ る大きな変化を音声力ッ ト点として検出し、 この音声力ッ ト点に基 づいて決定される場合もある。
このようなビデオデータにおいて類似チェーンとは、 互いに類似 し、 時間的に順序付けられた複数のセグメントであって、 その構造 パターンは、 当該チェーンに含まれる類似セグメント間の関係及び チェーンの構造として満たすべき制約条件によって、 幾つかの種類 に分類される。 形式的には、 類似チヱ一ンとは、 当該類似チヱ一ン が含むセグメントを S i · · · , S i kで表したとき、 全てのセ グメントに関して j = 1, * · · , k— 1 : i jく i ) + ,が成り立つ 一連のセグメントである。 ここで、 インデックス i 〗は、 そのセグメ ントの元のビデオデータ内におけるセグメント番号を表し、 iへの 添え字 j は、 そのセグメントが当該類似チェーン内において、 時間 軸上で; i番目に位置していることを表す。 なお、 類似チヱ一ンには. 時間的に不連続なセグメントが含まれるため、 チェーンの要素間に 時間的ギャップが存在することもある。 換言すれば、 セグメント S i i ; S , j + 1は、 元のビデオデータ内において、 必ずしも連続してい るとは限らない。
類似チェーンを用いることによって、 ビデオデータにおいて、 後 述する局所的ビデオ構造と大局的ビデオ構造との両方に関する有力 な手がかりを得ることができる。 一般にビデオデータには、 視聴者 がその概要を知覚的に把握できる手掛かりが存在する。 この手掛か りとして最も単純且つ重要なものは、 類似する映像セグメント又は 音声セグメントの構造パターンであり、 この構造パターンこそ類似 チェーンにより獲得すべき情報である。
このような類似チェーンとしては、 後に詳述するように、 基本類 似チェーン、 リ ンク類似チヱーン、 局所チェーン、 周期的チヱーン があり、 これらは、 ビデオデータ解析において最も重要で基本的な ものである。
ここで、 基本類似チェーンとは、 当該基本類似チェーンが含む全 てのセグメントが互いに類似したものである。 ただし、 その構造パ ターンにおける制約はない。 このような基本類似チヱーンは、 一般 に、 セグメントをグループ化するためのグルーピングァルゴリズム 又はクラスタリングアルゴリズムを用いて得ることができる。 また、 リンク類似チェーンとは、 そのチェーン内において隣接するセグメ ントが互いに類似したものである。 さらに、 局所チェーンとは、 隣 接するセグメン卜の各対において、 セグメント間の時間間隔が所定 の時間よりも小さいものである。 そして、 周期的チェーンとは、 各 セグメン卜が、 それよりも m番目後方のセグメントと類似したもの である。 すなわち、 周期的チェーンは、 m個のセグメ ン トが近似的 に繰り返されることで構成される。
そして、 このような類似チェーンは、 以下に示すように、 ビデオ データにおける例えばシーンといった局所的ビデオ構造や、 例えば ニュース項目といった大局的ビデオ構造を抽出するのに用いること ができる。
ここで、 シーンとは、 ビデオデータを、 その意味内容に基づいて、 より高いレベルで記述するために、 映像セグメン ト (ショ ッ ト) 検 出或いは音声セグメント検出により得られたセグメントを、 例えば セグメント内の知覚的ァクティ ビティ量といったセグメントの特徴 を表す特徴量を用いて意味のあるまとまりにグループ化したもので ある。 シーンは、 主観的なものであり、 ビデオデータの内容或いは ジャンルに依存するが、 ここでは、 その特徴量が互いに類似性を示 す映像セグメント又は音声セグメントの反復パターンをグループ化 したものとする。
さて、 上述した局所的ビデオ構造を抽出する類似チ: —ンの具体 例として、 図 2に示すように、 2人の話し手が互いに会話している 場面において、 映像セグメントが、 話し手に応じて交互に現れる場 合を考える。 このような反復パターンを有するビデオデータにおい て、 各映像セグメントは、 A成分及び B成分の各成分毎に、 2つの 交差するチェーンにより構成される。 そのため、 一般に、 このよう な交差する局所チヱ一ンは、 関連する映像セグメン トのグループ或 いはシーンを検出するのに用いることができる。
また、 上述した大局的ビデオ構造を抽出する類似チェーンの具体 例として、 図 3に示すように、 固定構造を有するニュース番組を考 える。 このようなビデオデータにおいては、 まず、 各ニュース項目 毎にニュースキャスターが項目を紹介するセグメントが出現し、 そ れに続いて、 例えば現地から特派員がリポー卜するセグメン卜が出 現する。 このような固定構造を有するビデオデータにおいては、 繰 り返し出現する-ユースキャスターの映像セグメン トは、 大局的チ エーンを構成する。 ここで、 ニュースキャスターのセグメン トは、 各ニュース項目の開始部を示すため、 大局的チェーンを用いること によって、 ニュース項目を自動的に検出することができる。 すなわ ち、 大局的チェ一ンを用いることによって、 同図において、 トピッ ク A, B , C , D, · · · といった複数のニュース項目から構成さ れるビデオデータの中から、 各トピックを検出することができる。 本発明を適用した実施の形態と して図 4に示す映像音声処理装置 1 0は、 上述したビデオデータにおけるセグメン トの特徴量を用い てセグメント間の類似性を測定し、 上述した類似チェーンを自動的 に検出するものであり、 映像セグメント及び音声セグメントの両方 に適用できるものである。 そして、 映像音声処理装置 1 0は、 類似 チェーンを解析することによって、 ビデオデータから、 局所的ビデ ォ構造であるシーンや、 大局的ビデオ構造である トピック等の高レ ベルの構造を抽出 ·再構成することができる。
映像音声処理装置 1 0は、 同図に示すように、 入力したビデオデ —タのス トリ一ムを映像、 音声又はこれらの両方のセグメントに分 割するビデオ分割部 1 1 と、 ビデオデータの分割情報を記憶するビ デォセグメントメモリ 1 2と、 各映像セグメントにおける特徴量を 抽出する特徴量抽出手段である映像特徴量抽出部 1 3 と、 各音声セ グメントにおける特徴量を抽出する特徴量抽出手段である音声特徴 量抽出部 1 4と、 映像セグメン ト及び音声セグメントの特徴量を記 憶するセグメン ト特徴量メモリ 1 5と、 映像セグメン ト及び音声セ グメントをチェーンにまとめる検出手段であるチェーン検出部 1 6 と、 2つのセグメント間の類似性を測定する類似性測定手段である 特徴量類似性測定部 1 7と、 種々のビデオ構造を検出する解析手段 であるチヱーン解析部 1 8とを備える。
ビデオ分割部 1 1は、 例えば、 M P E G 1 (Mov ing Pi cture Exp erts Group phase 1 ) や M P E G 2 (Mov ing P i cture Expert s oro up phase 2) 、 或いはいわゆる D V (Digi ta l Vi deo) のような圧縮 ビデオデータフォーマッ トを含む種々のディジタル化されたフォー マッ トにおける映像データと音声データとからなるビデオデータの ス トリームを入力し、 このビデオデータを映像、 音声又はこれらの 両方のセグメントに分割するものである。 このビデオ分割部 1 1は、 入力したビデオデータが圧縮フォーマツ 卜であった場合、 この圧縮 ビデオデータを完全伸張することなく直接処理することができる。 ビデオ分割部 1 1は、 入力したビデオデータを処理し、 映像セグメ ントと音声セグメントとに分割する。 また、 ビデオ分割部 1 1は、 入力したビデオデータを分割した結果である分割情報を後段のビデ ォセグメントメモリ 1 2に供給する。 さらに、 ビデオ分割部 1 1は、 映像セグメントと音声セグメントとに応じて、 分割情報を後段の映 像特徴量抽出部 1 3及び音声特徴量抽出部 1 4に供給する。
ビデオセグメントメモリ 1 2は、 ビデオ分割部 1 1から供給され たビデオデータの分割情報を記憶する。 また、 ビデオセグメントメ モリ 1 2は、 後述するチヱーン検出部 1 6からの問い合わせに応じ て、 分割情報をチェーン検出部 1 6に供給する。
映像特徴量抽出部 1 3は、 ビデオ分割部 1 1により ビデオデータ を分割して得た各映像セグメント毎の特徴量を抽出する。 映像特徴 量抽出部 1 3は、 圧縮映像データを完全伸張することなく直接処理 することができる。 映像特徴量抽出部 1 3は、 抽出した各映像セグ メン 卜の特徴量を後段のセグメン ト特徴量メモリ 1 5に供給する。 音声特徴量抽出部 1 4は、 ビデオ分割部 1 1により ビデオデータ を分割して得た各音声セグメント毎の特徴量を抽出する。 音声特徴 量抽出部 1 4は、 圧縮音声データを完全伸張することなく直接処理 することができる。 音声特徴量抽出部 1 4は、 抽出した各音声セグ メン卜の特徴量を後段のセグメン ト特徴量メモリ 1 5に供給する。 セグメント特徴量メモリ 1 5は、 映像特徴量抽出部 1 3及び音声 特徴量抽出部 1 4からそれぞれ供給された映像セグメント及び音声 セグメン卜の特徴量を記憶する。 セグメント特徴量メモリ 1 5は、 後述する特徴量類似性測定部 1 7からの問い合わせに応じて、 記憶 している特徴量やセグメントを特徴量類似性測定部 1 7に供給する。 チェーン検出部 1 6は、 ビデオセグメン トメモリ 1 2に保持され た分割情報と、 1対のセグメント間の類似性とを用いて、 映像セグ メント及び音声セグメントをそれぞれチヱ一ンにまとめる。 チェ一 ン検出部 1 6は、 グループ内の各セグメントから開始して、 セグメ ント群の中から類似しているセグメントの反復パターンを検出し、 このようなセグメントをチェーンにまとめていく。 このチェーン検 出部 1 6は、 チヱ一ンの初期候補をまとめた後、 第 2のフィルタリ ング段階を用いてチヱ一ンの最終セッ トを決定する。 そして、 チェ ーン検出部 1 6は、 検出したチェーンを後段のチヱ一ン解析部 1 8 に供給する。
特徴量類似性測定部 1 7は、 2つのセグメ ン ト間の類似性を測定 する。 特徴量類似性測定部 1 7は、 或るセグメントに関する特徴量 を検索するようにセグメント特徴量メモリ 1 5に問いかける。
チェーン解析部 1 8は、 チェーン検出部 1 6により検出されたチ エーン構造を解析し、 種々の局所的ビデオ構造及び大局的ビデオ構 造を検出する。 このチェーン解析部 1 8は、 後述するように、 その 細部を特定のァプリケーションに合わせて調整することができる。 このような映像音声処理装置 1 0は、 類似チェーンを用いて図 5 に概略を示すような一連の処理を行うことによって、 ビデオ構造を 検出する。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 1において、 ビデオ分割を行う。 すなわち、 映像音声処理装置 1 0 は、 ビデオ分割部 1 1に入力されたビデオデータを映像セグメント 又は音声セグメントのいずれか、 或いは可能であればその両方に分 割する。 映像音声処理装置 1 0は、 適用するビデオ分割方法に特に 前提要件を設けない。 例えば、 映像音声処理装置 1 0は、 "G. Aha nger and i . D. C. Little, A survey of tecnnologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28— 4, 1996" ίこ記載されてレヽるような方法 により ビデオ分割を行う。 このようなビデオ分割の方法は、 当該技 術分野ではよく知られたものであり、 映像音声処理装置 1 0は、 い かなるビデオ分割方法も適用できるものとする。 続いて、 映像音声処理装置 1 0は、 ステップ S 2において、 特徴 量の抽出を行う。 すなわち、 映像音声処理装置 1 0は、 映像特徴量 抽出部 1 3や音声特徴量抽出部 1 4によって、 そのセグメントの特 徴を表す特徴量を計算する。 映像音声処理装置 1 0においては、 例 えば、 各セグメン トの時間長、 カラーヒス トグラムやテクスチャフ ィーチヤといった映像特徴量や、 周波数解析結果、 レベル、 ピッチ といった音声特徴量や、 アクティ ビティ測定結果等が、 適用可能な 特徴量として計算される。 勿論、 映像音声処理装置 1 0は、 適用可 能な特徴量としてこれらに限定されるものではない。
続いて、 映像音声処理装置 1 0は、 ステップ S 3において、 特徴 量を用いたセグメントの類似性測定を行う。 すなわち、 映像音声処 理装置 1 0は、 特徴量類似性測定部 1 7により非類似性測定を行い、 その測定基準によって、 2つのセグメン卜がどの程度類似している かを測定する。 映像音声処理装置 1 0は、 先のステップ S 2におい て抽出した特徴量を用いて、 非類似性測定基準を計算する。
続いて、 映像音声処理装置 1 0は、 ステップ S 4において、 チェ —ンの検出を行う。 すなわち、 映像音声処理装置 1 0は、 先のステ ップ S 3において計算した非類似性測定基準と、 先のステップ S 2 において抽出した特徴量とを用いて、 類似したセグメントのチヱ一 ンを検出する。
そして、 映像音声処理装置 1 0は、 ステップ S 5において、 チェ ーンの解析を行う。 すなわち、 映像音声処理装置 1 0は、 先のステ ップ S 4において検出したチェーンを用いて、 ビデオデータの局所 的ビデォ構造及び 又は大局的ビデオ構造を決定して出力する。 このような一連の処理を経ることによって、 映像音声処理装置 1 0は、 ビデオデータからビデオ構造を検出することができる。 した がって、 ユーザは、 この結果を用いることによって、 ビデオデータ の内容の索引付けや要約を行ったり、 ビデオデータ中の興味のある ボイン卜に迅速にアクセスしたりすることが可能となる。
以下、 同図に示した映像音声処理装置 1 0における処理を各工程 毎により詳細に説明していく。
まず、 ステップ S 1におけるビデオ分割について説明する。 映像 音声処理装置 1 0は、 ビデオ分割部 1 1に入力されたビデオデータ を映像セグメント又は音声セグメン 卜のいずれか、 或いは可能であ ればその両方に分割するが、 このビデオデータにおけるセグメント の境界を自動的に検出するための技術は多くのものがあり、 当該映 像音声処理装置 1 0において、 このビデオ分割方法に特別な前提要 件を設けないことは上述した通りである。 一方、 映像音声処理装置
1 0において、 後の工程によるチェーン検出の精度は、 本質的に、 基礎となるビデオ分割の精度に依存する。
つぎに、 ステップ S 2における特徴量抽出について説明する。 特 徴量とは、 セグメントの特徴を表すとともに、 異なるセグメント間 の類似性を測定するためのデータを供給するセグメン卜の属性であ る。 映像音声処理装置 1 0は、 映像特徴量抽出部 1 3や音声特徴量 抽出部 1 4により各セグメントの特徴量を計算し、 セグメントの特 徴を表す。 映像音声処理装置 1 0は、 いかなる特徴量の具体的詳細 にも依存するものではないが、 当該映像音声処理装置 1 0において 用いて効果的であると考えられる特徴量としては、 例えば以下に示 す映像特徴量、 音声特徴量、 映像音声共通特徴量のようなものがあ る。 映像音声処理装置 1 0において適用可能となるこれらの特徴量 の必要条件は、 非類似性の測定が可能であることである。 さらに、 これらの特徴量は、 映像音声処理装置 1 0が効率化のために特徴量 抽出と上述したビデオ分割とを同時に行うことを可能とする必要が ある。 以下に説明する特徴量は、 これらの必要条件を満たすもので ある。
特徴量としては、 まず映像に関するものが挙げられる。 以下では、 これを映像特徴量と称することにする。 映像セグメ.ントは、 連続す る映像フレームにより構成されるため、 映像セグメントから適切な 映像フレームを抽出することによって、 その映像セグメントの描写 内容を、 抽出した映像フレームで代表して表現することが可能であ る。 すなわち、 映像セグメントの類似性は、 適切に抽出された映像 フレームの類似性で代替可能である。 このことから、 映像特徴量は、 映像音声処理装置 1 0で用いることができる重要な特徴量の 1つで ある。 この場合の映像特徴量は、 単独では静的な情報しか表せない が、 映像音声処理装置 1 0は、 後述するような方法を適用すること によって、 この映像特徴量に基づく映像セグメン卜の動的な特徴を 抽出することもできる。
映像音声処理装置 1 0において、 映像における色は、 2つの映像 が類似しているかを判断する際の重要な材料となる。 カラーヒス ト グラムを用いて映像の類似性を判断することは、 例えば "G. Ahang er and T. D.し. Little, A survey of technologies for parsing a nd indexing digital video, J. of Visual Communication and Im age Representation 7:28— 4, 1996" (こ記載されてレヽるよう ίこ、 よく 知られている。 ここで、 カラ一ヒス トグラムとは、 例えば H S Vや RG Β等の 3次元色空間を η個の領域に分割し、 映像における画素 の、 各領域での出現頻度の相対的割合を計算したものである。 そし て、 得られた情報からは、 n次元べク トルが与えられる。 圧縮され たビデオデータに関しても、 例えば U. S. Patent #5, 708, 767号公報 に記載されているように、 カラーヒス トグラムを、 圧縮データから 直接抽出することができる。
映像音声処理装置 1 0では、 セグメントを構成する映像における もともとの Y U V色空間を、 色チヤンネル当たり 2.ビッ 卜でサンプ ルして構成した、 2 2 · 3 = 6 4次元のヒス トグラムべク トルを用いて いる。
このようなヒス トグラムは、 映像の全体的な色調を表すが、 これ には時間情報が含まれていない。 そこで、 映像音声処理装置 1 0に おいては、 もう 1つの映像特徴量と して、 映像相関を計算する。 映 像音声処理装置 1 0におけるチェーン検出において、 複数の類似セ グメントが互いに交差した構造は、 それがまとまった 1つのチェ一 ン構造であることを示す有力な指標となる。 例えば会話場面におい て、 カメラの位置は、 2人の話し手の間を交互に移動するが、 カメ ラは通常、 同一の話し手を再度撮影するときには、 ほぼ同じ位置に 戻る。 このような場合における構造を検出するためには、 グレイス ケールの縮小映像に基づく相関がセグメントの類似性の良好な指標 となることを見出したことから、 映像音声処理装置 1 0では、 元の 映像を M X Nの大きさのグレイスケール映像へ間引き縮小し、 これ を用いて映像相関を計算する。 ここで、 Mと Nは、 両方とも小さな 値で十分であり、 例えば 8 X 8である。 すなわち、 これらの縮小グ レイスケール映像は、 M N次元の特徴量べク トルとして解釈される。 さらに上述した映像特徴量とは異なる特徴量としては、 音声に関 するものが挙げられる。 以下では、 この特徴量を音声特徴量と称す ることにする。 音声特徴量とは、 音声セグメ ン トの内容を表すこと ができる特徴量であり、 映像音声処理装置 1 0は、 この音声特徴量 として、 周波数解析、 ピッチ、 レベル等を用いることができる。 こ れらの音声特徴量は、 種々の文献により知られているものである。 まず、 映像音声処理装置 1 0は、 フーリエ変換等の周波数解析を 行うことによって、 単一の音声フレームにおける周波数情報の分布 を決定することができる。 映像音声処理装置 1 0は、 例えば、 1つ の音声セグメントにわたる周波数情報の分布を表すために、 F F T (Fast Four i er Transform; 高速フ一リエ変換) 成分、 周波数ヒス トグラム、 パワースペク トル、 その他の特徴量を用いることができ る。
また、 映像音声処理装置 1 0は、 平均ピッチや最大ピッチ等のピ ツチや、 平均ラウ ドネスゃ最大ラゥ ドネス等の音声レベルもまた、 音声セグメントを表す有効な音声特徴量として用いることができる。
さらに、 映像音声処理装置 1 0は、 ケプス トラム特徴量として、 ケプス トラム係数とその 1次及び 2次微分係数とを含み、 F F Tス ぺク トル又は L P C (Linear Pred i ct ive Coding;線形予測符号 化) 等から得られたケプス トラムスぺク トル係数を用いることもで きる。
さらに他の特徴量としては、 映像音声共通特徴量が挙げられる。 これは、 映像特徴量でもなく音声特徴量でもないが、 映像音声処理 装置 1 0において、 チェーン内のセグメントの特徴を表すのに有用 な情報を与えるものである。 映像音声処理装置 1 0は、 この映像音 声共通特徴量として、 アクティ ビティを用いる。 アクティビティとは、 セグメントの内容がどの程度動的或いは静 的であるように感じられるかを表す指標である。 例えば、 視覚的に 動的である場合、 アクティビティは、 カメラが対象物に沿って迅速 に移動する度合い若しくは撮影されているオブジェク トが迅速に変 化する度合いを表す。
このアクティビティは、 カラーヒス トグラムのような特徴量のフ レーム間非類似性の平均値を測定することによって、 間接的に計算 される。 ここで、 フレーム i とフレーム j との間で測定された特徴 量 Fに対する非類似性測定基準を d F ( i , j ) と定義すると、 映像 アクティビティ V Fは、 次式 ( 1 ) のように定義される。
Figure imgf000022_0001
式 ( 1 ) において、 bと f は、 それぞれ、 1セグメントにおける 最初と最後のフレームのフレーム番号である。 映像音声処理装置 1 0は、 具体的には、 例えば上述したヒス トグラムを用いて、 映像ァ クティビティ を計算することができる。
ところで、 上述した映像特徴量を始めとする特徴量は、 基本的に はセグメントの静的情報を表すものであることは上述した通りであ るが、 セグメントの特徴を正確に表すためには、 動的情報をも考盧 する必要がある。 そこで、 映像音声処理装置 1 0は、 以下に示すよ うな特徴量のサンプリング方法により動的情報を表すこととする。 映像音声処理装置 1 0は、 例えば図 6に示すように、 1セグメン ト内の異なる時点から 1以上の静的な特徴量を抽出する。 このとき, 映像音声処理装置 1 0は、 特徴量の抽出数を、 そのセグメン ト表現 における忠実度の最大化とデータ冗長度の最小化とのバランスをと ることにより決定する。 例えば、 セグメント内の或る 1画像が当該 セグメントのキーフレームとして指定可能な場合には、 そのキーフ レームから計算されたヒス トグラムが、 抽出すべきサンプリング特 徴量となる。
ところで、 或るサンプルが常に所定の時点、 例えばセグメント内 の最後の時点において選択される場合を考える。 この場合、 黒フレ ームへ変化 (fade) していく任意の 2つのセグメントについては、 サンプルが同一の黒フレームとなるため、 同一の特徴量が得られる 結果になる恐れがある。 すなわち、 これらのセグメン トの映像内容 がいかなるものであれ、 選択した 2つのフレームは、 極めて類似し ていると判断されてしまう。 このような問題は、 サンプルが良好な 代表値でないために発生するものである。
そこで、 映像音声処理装置 1 0は、 このように固定点で特徴量を 抽出するのではなく、 セグメ ント全体における統計的な代表値を抽 出することとする。 ここでは、 一般的な特徴量のサンプリング方法 を 2つの場合、 すなわち、 ( 1 ) 特徴量を実数の n次元ベク トルと して表すことができる場合と、 (2 ) 非類似性測定基準しか利用で きない場合とについて説明する。 なお、 ( 1 ) には、 ヒス トグラム やパワースぺク トル等、 最もよく知られている映像特徴量及び音声 特徴量が含まれる。
( 1 ) においては、 サンプル数は、 事前に kと決められており、 映像音声処理装置 1 0は、 " L. Kaufman and P. J. Rousseeuw, Fin ding Groups in Data: An Introduction to Cluster Analysis, Joh n- Wiley and sons, 1990" に記載されてよく知られている k平均値 クラスタリング法 (k - means-clustering method) を用レヽて、 セグメ ント全体についての特徴量を k個の異なるグループに自動的に分割 する。 そして、 映像音声処理装置 1 0は、 サンプル値と して、 k個 の各グループから、 グループの重心値 (centroid) 又はこの重心値 に近いサンプルを選択する。 映像音声処理装置 1 0.におけるこの処 理の複雑度は、 サンプル数に関して単に直線的に増加するにとどま る。
—方、 (2) においては、 映像音声処理装置 1 0は、 "L. aufm an and P. J. Rousseeuw, Finding Groups in Data: An Introductio n to Cluster Analysis, John-Wiley and sons, 1990" に言己載され ている kーメ ドィ ドアルゴリズム法 (k-medoids algorithm metho d) を用いて、 k個のグループを形成する。 そして、 映像音声処理装 置 1 0は、 サンプル値として、 k個のグループ毎に、 上述したダル —プのメ ドィ ド (medoid) を用いる。
なお、 映像音声処理装置 1 0においては、 抽出された動的特徴を 表す特徴量についての非類似性測定基準を構成する方法は、 その基 礎となる静的な特徴量の非類似性測定基準に基づくが、 これについ ては後述する。
このようにして、 映像音声処理装置 1 0は、 静的な特徴量を複数 抽出し、 これらの複数の静的な特徴量を用いることによって、 動的 特徴を表すことができる。
以上のように、 映像音声処理装置 1 0は、 種々の特徴量を抽出す ることができる。 これらの各特徴量は、 一般に、 単一ではセグメン トの特徴を表すのに不十分であることが多い。 そこで、 映像音声処 理装置 1 0は、 これらの各種特徴量を組み合わせることで、 互いに 補完し合う特徴量の組を選択することができる。 例えば、 映像音声 処理装置 1 0は、 上述したカラーヒス トグラムと映像相関とを組み 合わせることによって、 各特徴量が有する情報よりも多くの情報を 得ることができる。
つぎに、 図 5中ステップ S 3における特徴量を用いたセグメント の類似性測定について説明する。 映像音声処理装置 1 0は、 2つの 特徴量について、 それがどの程度非類似であるかを測定する実数値 を計算する関数である非類似性測定基準を用いて、 特徴量類似性測 定部 1 7によりセグメントの類似性測定を行う。 この非類似性測定 基準は、 その値が小さい場合は 2つの特徴量が類似していることを 示し、 値が大きい場合は非類似であることを示す。 ここでは、 特徴 量 Fに関する 2つのセグメント S S 2の非類似性を計算する関数 を非類似性測定基準 d F (S L S 2) と定義する。 このような関数は. 以下の式 ( 2 ) で与えられる関係を満足する。
dF , S2) = 0 のとき)
Figure imgf000025_0001
dp[Si' ^Σ)≥ 0 f全ての ·?】,·?2について) (2) dJs^s d s^s} (全ての , S2 について、
ところで、 非類似性測定基準の中には、 或る特定の特徴量にのみ 適用可能なものがあるが、 "G. Ahanger and T. D. C. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28 - 4, 1996" や "L. Kaufman and P. J. Rousseeuw, Finding Groups in Data '-An Introduction to Cluster Analysis, John-Wiley and son s, 1990" に記載されているように、 一般には、 多くの非類似性測定 基準は、 n次元空間における点として表される特徴量についての類 似性を測定するのに適用可能である。 その具体例は、 ユーク リ ッ ド 距離、 内積、 L 1距離等である。 ここで、 特に L 1距離が、 ヒス ト グラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作 用することから、 映像音声処理装置 1 0は、 L 1距離を導入する。 ここで、 2つの n次元ベク トルを A, Bとした場合、 A, B間の L 1距離 d t, (A, B) は、 次式 ( 3) で与えられる。
dL1 [Α,Β] =∑ Α -Β. · ' ' (3)
ここで、 下付文字 iは、 η次元べク トル Α, Βのそれぞれの i番 目の要素を示すものである。
また、 映像音声処理装置 1 0は、 上述したように、 動的特徴を表 す特徴量として、 セグメン卜における様々な時点での静的な特徴量 を抽出する。 そして、 映像音声処理装置 1 0は、 抽出された 2つの 動的特徴量の間の類似性を決定するために、 その非類似性測定基準 として、 その基礎となる静的特徴量の間の非類似性測定基準を用い る。 これらの動的特徴量の非類似性測定基準は、 多くの場合、 各動 的特徴量から選択された最も類似した静的特徴量の対の非類似性値 を用いて決定されるのが最良である。 この場合、 2つの抽出された 動的特徴量 S F ,, S F 2の間の非類似性測定基準は、 次式 (4) の ように定義される。
,^ mm
': 2 J F1esF1.^:esFJ , F2) · · ' (4)
ここで、 上式 (4) における関数 d F (F F 2) は、 その基礎と なる静的特徴量 Fについての非類似性測定基準を示す。 なお、 場合 によっては、 特徴量の非類似性の最小値をとる代わりに、 最大値又 は平均値をとってもよい。
ところで、 映像音声処理装置 1 0は、 セグメントの類似性を決定 する上で、 単一の特徴量だけでは不十分であり、 同一セグメントに 関する多数の特徴量からの情報を組み合わせることを必要とする場 合も多い。 この 1つの方法として、 映像音声処理装置 1 0は、 種々 の特徴量に基づく非類似性を、 それぞれの特徴量の重み付き組み合 わせとして計算する。 すなわち、 映像音声処理装置 1 0は、 k個の 特徴量 F ,, F 2 , · · · , Fkが存在する場合、 次式 (5) に表され る組み合わせた特徴量に関する非類似性測定基準 d F (S:, S 2) を 用いる。 d^S^S^lwd^S^S^ ... (5) ここで、 { w i } は、 ∑ i w i = 1 となる重み係数である。
以上のように、 映像音声処理装置 1 0は、 図 5中ステップ S 2に おいて抽出された特徴量を用いて非類似性測定基準を計算し、 当該 セグメント間の類似性を測定することができる。
つぎに、 図 5中ステップ S 4におけるチェーン検出について説明 する。 映像音声処理装置 1 0は、 非類似性測定基準と抽出した特徴 量とを用いて、 類似セグメント間のつながりを表す類似チェーンを 検出する。 ここでは、 まず、 幾つかのタイプの類似チェーンを定義 し、 各タイプの類似チェーンを検出するためのアルゴリズムについ て具体的に説明する。
ところで、 以下に定義される類似チェーンのタイプは、 それぞれ 互いに独立したものであるため、 映像音声処理装置 1 0においては、 1つのチェーンが複数のタイプに属することが可能である。 ここで は、 このようなチェーンを、 定義したタイプ名を組み合わせて称す ることにする。 例えば、 局所均一リ ンクチェーンは、 後述するよう に、 局所的であって均一であり リンク類似チェーンのことを示す。 さて、 類似チヱーンのタイプは、 当該類似チェーンが含む類似セ グメント間の関係に制約を有するものと、 当該類似チェーンの構造 に制約を有するものとに大別される。 なお、 以下の定義において、 チェ一ン Cとは、 一連のセグメント Sい, · · · , S i mを表すこ ととする。 ここで、 ィンデックス i kは、 そのセグメントの、 元のビ デォデータ内におけるセグメント番号を表し、 また iへの添え字 k は、 そのセグメントが当該類似チェーン内において、 時間軸上で k 番目に位置していることを表す。 また、 これらの一連のセグメント は、 常に時間軸上において順序付けられているものとし、 全ての k = 1 , · · . , m— 1について i k< i k+,である。 さらに、 | C | は、 チェーンの長さを表し、 C s t a r 1及び C °ndは、 それぞれ、 ビデ ォデータにおけるチェ一ン Cの開始時刻及び終了時刻を表すものと する。 より正確には、 チェーン Cの開始時刻は、 チヱ一ン Cにおけ る最初のセグメン卜の開始時刻であり、 チェーン Cの終了時刻は、 チェ一ン Cにおける最後のセグメントの終了時刻である。 さらにま た、 或るセグメントを Aとした場合、 その類似セグメントを、 A' , A' ' , A' ' ' , · · ' で表す。 最後に、 2つのセグメントが類 似しているとは、 それらの非類似性測定基準が、 後述する非類似性 閾値より も小さい状態であることと し、 これを s i m i l a r (S S 2) で表す。
当該類似チ ーンが含む類似セグメント間の関係に制約を有する 類似チェーンとしては、 基本類似チェーン、 リ ンク類似チェーン、 周期的チヱ一ンがある。
まず、 基本類似チェーンであるが、 これは、 図 7に示すように、 全てのセグメントが互いに類似したチェーン Cである。 なお、 基本 類似チェーンに構造的制約はない。 この基本類似チェーンは、 多く の場合、 類似セグメントをグループ化するためのグルーピングアル ゴリズム又はクラスタリングアルゴリズムの結果として得られるも のである。
一方、 リンク類似チェーンとは、 図 8に示すように、 隣接するセ グメン卜が互いに類似したチェーン Cである。 すなわち、 リンク類 似チェーンでは、 全ての k = 1 , · · ' , I C I— 1について、 s i m i 1 a r ( S k) S である。 このリンク類似チェーンは、 上述した類似セグメン トの定義から、 , , 八, , , 八' , ' , · • · と記述することができる。
さらに、 周期的チェーンとは、 図 9に示すように、 各セグメント が、 その後方 m番目のセグメントと類似したチェーン C c yc cであ る。 すなわち、 周期的チェーンでは、 全ての k = l , · · ·, I C cyc l | — 1について、 s i m i 1 a r ( S k, S k + である。 換 言すれば、 周期的チェーンは、 m個の一連のセグメン トの近似的な 繰り返しとして構成される。 これより、 周期的チェーンは、 S ,, S
2 , * " * , m , I , S 2 , * * * , m , 1 , O 2
* * ' , S m , Λ , S i , 2 , * * " » m
と記述することができる。
一方、 構造的制約を有する類似チェーンとしては、 局所チェーン、 均一チヱーンがある。
ここで、 局所チェーンとは、 上述したように、 隣接するセグメン トの各対において、 セグメント間の時間間隔が所定の時間よりも小 さいチヱーン Cである。 すなわち、 局所チヱーンでは、 チヱ一ン内 の 2つのセグメント間において許容される時間間隔の最大値を g a Pと表すと、 全ての k = 1 , · · ·, I C I — 1について、 隣接す るセグメント S i k, S i k + lに対して、 i k +1— i k≤ g a pである。 また、 チヱーン内のセグメントがほぼ等しい時間間隔で現れる場 合、 これは重要なビデオ構造の有力な指標となり うるが、 このよう なチェーン Cを均一チェーンと定義する。 ここで、 チェーン Cの均 一性 u n i f o r m i t y (C) を、 次式 ( 6 ) に示すように、 等 間隔時間からの時間間隔のずれの平均値を、 そのチェーンの長さで 規格化したものとして定義する。 /JP00觸 422
29
1 。
小】 I 。 、 ΐ { Vce"d一 う
s 、 i+l J j c| (6) uniformity[C =
|c|-
上式 (6) で示されるチェーン Cの均一性 u n i f o r m i t y (C) は、 0から 1の範囲の値をと り、 その値が小さい場合、 セグ メントの時間間隔分布が均一な分布に近いことを示す。 この均一性 u n i f o r m i t y (C) の値が所定の均一性閾値よりも小さい 場合、 チェーン Cを均一チェーンとみなす。
以下、 映像音声処理装置 1 0において、 このような各種チェーン のそれぞれを検出するための処理について説明する。
映像音声処理装置 1 0は、 上述した基本類似チェーンを検出する ために、 バッチクラスタリ ング技術或いは逐次クラスタリング技術 を用いる。
バッチクラスタリング技術とは、 チェーンを一括して検出する技 術である。 ただし、 この技術を適用するためには、 チェーン検出を 行う前に、 全てのビデオ分割を終了しておく必要がある。 一方の逐 次クラスタリング技術は、 チェーンを逐次的に検出していく技術で あり、 もしビデオ分割及び特徴量抽出のまた逐次的に行われるなら ば、 ビデオデータを再生しつつ逐次的にビデオ解析を行うことが可 能となる。 さらには、 もし映像音声処理装置 1 0に十分な計算能力 があるならば、 この逐次的チェーン検出を実時間、 換言すれば、 ビ デォデータを取込又は記録すると同時にチェーンを検出していく こ とができる。 しかしながら、 逐次的なビデオ解析は、 その精度に問 題を生じることがある。 すなわち、 逐次的な方法の場合、 最適チエ ーン構造を決定するための大局的な情報がなく、 さらにはセグメン トの入力順序に敏感であるため、 低品質の結果を生じることがある c 映像音声処理装置 1 0は、 バッチクラスタリング技術を用いる場 合には、 図 1 0に示すように、 2つの工程を経ることによって、 基 本類似チェーンを検出する。
まず、 映像音声処理装置 1 0は、 ステップ S 1 1において、 候補 チェーンの検出を行う。 すなわち、 映像音声処理装置 1 0は、 ビデ ォデータにおける類似セグメントを検出し、 クラスタとしてまとめ る。 これにより得られたセグメ ン トのクラスタ群は、 基本類似チェ —ンを検出する上での初期候補となる。
映像音声処理装置 1 0は、 類似チェーンの初期候補を求める際、 任意のクラスタリング技術を用いることができるが、 ここでは、 " L. Kaufman and P. J. Rousseeuw, Finding uroups in Data: An 丄 nt roduction to Cluster Analysis, John-Wiley and sons, 1990" に 記載されている階層的クラスタリング方法 (hierarchical cluster ing method) を用いることにする。 このアルゴリズムは、 まず、 最 も類似した 2つのセグメントを 1つの対としてまとめることにより 始まり、 クラスタ間の類似性測定基準を用いて、 各段階で最も類似 したクラスタの対を次々とまとめていく。 このアルゴリズムにおい て、 2つのクラスタ C C 2間の非類似性測定基準 d c (C C 2) を、 次式 ( 7) に示すように、 それぞれのクラスタに含まれる 2つ のセグメント間の最小非類似性として定義する。 d ic ,c)= min d (s^s) · · · (7)
なお、 映像音声処理装置 1 oにおいては、 必要に応じて、 上式
(7) で示される最小関数の代わりに、 最大関数又は平均関数を用 いてもよい。
ところで、 この階層的クラスタリング法は、 仮に何らの制約のな い場合、 ビデオデータに含まれる全てのセグメントを単一のグルー プにまとめてしまう。 そこで、 映像音声処理装置 1 0は、 図 1 1に 示すように、 非類似性閾値 δ s imを導入し、 この非類似性閾値 5 s im との比較によって、 或るセグメントが他方のセグメントと類似であ るか否かを判断する。 ここで、 非類似性閾値 δ s imとは、 同図に示す ように、 2つのセグメントがどの程度類似している場合に同一のチ エーンに属するものとみなすかを決定する閾値である.。 そして、 映 像音声処理装置 1 0は、 全クラスタ対の非類似性がこの非類似性閾 値 δ imを超えない範囲において、 セグメンドをクラスタにまとめて いく。
なお、 映像音声処理装置 1 0は、 非類似性閾値 δ s imをユーザによ り設定するようにしてもよく、 自動的に決定してもよい。 ただし、 非類似性閾値 δ s imとして固定値を用いる場合には、 その最適値は、 ビデオデータの内容に依存することとなる。 例えば、 変化に富んだ 映像内容を有するビデオデータの場合、 非類似性閾値 5 s imは、 高い 値に設定される必要がある。 一方、 変化が少ない映像内容を有する ビデオデータの場合、 非類似性閾値 S s imは、 低い値に設定される必 要がある。 ここで一般に、 非類似性閾値 δ s imが高い場合には、 検出 されるクラスタ数は少なくなり、 非類似性閾値 δ s imが低い場合には. 検出されるクラスタ数は多くなるという性質がある。
これより、 映像音声処理装置 1 0においては、 適切な非類似性閾 値 δ s imを決定することが、 その性能を左右する上で重要となる。 そ のため、 映像音声処理装置 1 0においては、 非類似性閾値 s s i mをュ 一ザにより設定する場合には、 上述したことを考慮.した上で設定す る必要がある。 一方、 映像音声処理装置 1 0は、 以下に示す方法に より、 有効な非類似性閾値 δ s imを自動的に決定することもできる。 例えば、 その 1つの方法として、 映像音声処理装置 1 0は、
(n) (n - 1 ) 2個のセグメント対の間の非類似性の分布にお ける平均値やメジアン (中央値) といった統計量を用いて、 非類似 性閾値 5 s imを得ることができる。 いま、 全てのセグメント対におけ る非類似性の平均値とその標準偏差をそれぞれ μ , σとした場合、 非類似性閾値 5 S ^は、 a μ + b σの形式で表すことができる。 ここ で、 a及び bは定数であり、 それぞれ、 0. 5及び 0. 1に設定す ることが良好な結果を与えることを見出している。
実用上においては、 映像音声処理装置 1 0は、 全てのセグメン ト 対について、 それらの間の非類似性を求める必要はなく、 その平均 値 及び標準偏差 σが真値に十分近い結果を与えるに足りるセグメ ント対を、 全セグメント対集合からランダムに選択し、 その非類似 性を求めればよい。 映像音声処理装置 1 0は、 このようにして得ら れた平均値 μ及び標準偏差 σを用いることによって、 適切な非類似 性閾値 δ s imを自動的に得ることができる。 すなわち、 映像音声処理 装置 1 0は、 例えば、 セグメント対の全数を n、 任意の小さい定数 を Cとした場合、 C nで与えられる数のセグメント対の非類似性を 抽出することによって、 適切な非類似性閾値 δ s i mを自動的に決定す ることができる。
映像音声処理装置 1 0は、 これまでに示したようにセグメン トの クラスタリングを行った後、 各クラスタにて、 当該各クラスタに含 まれるセグメントを並べ替えることによって、 基本類似チェーンの 初期候補を得ることができる。
ところで、 図 1 0中ステップ S 1 1において検出したチェーン候 補は、 その多くが、 実際のビデオ構造とは無関係のものである。 こ れより、 映像音声処理装置 1 0は、 どのチヱ一ン候補がビデオ構造 の骨格をなす重要なチェーンである力 、 或いは、 ビデオ構造に関連 するチェーンであるかを決定する必要がある。 そのため、 映像音声 処理装置 1 0は、 ステップ S 1 2において、 チェーンの品質を示す 数的基準に対応する品質測定基準を用いたチ ーンフィルタリング を行う。 すなわち、 映像音声処理装置 1 0は、 ビデオ構造解析にお けるチエ一ン候補の重要性及び関連性を測定し、 所定の品質測定基 準閾値を上回るチェーン候補のみをチェーン検出の結果として出力 する。 ここで、 フィルタ リ ングで使用される関連性測定関数として 最も単純な例は、 チェーン候補が受け入れられるか否かを示すブー ル関数であるが、 映像音声処理装置 1 0は、 必要に応じて、 より複 雑な関連性測定関数を用いてもよい。
ところで、 映像音声処理装置 1 0においては、 チェーン品質測定 基準として、 チェーン長、 チェーン密度、 チェーン強度等が用いら れる。
まず、 チェーン長であるが、 これは、 1つのチェーンが保有する セグメントの数と定義される。 ここで、 映像音声処理装置 1 0が、 このチェーン長を、 そのチェーン品質測定基準と して用いることが できるのは、 一般にチェーン長が小さい場合であり、 それは通常ノ ィズとしてみなすことが可能であることに依る。 例えば、 或るチェ ーンが単一セグメントしか有していない場合、 それは何らの情報を 有していない。 すなわち、 チェーン長に基づく品質測定基準では、 その制約として、 チェーンが保有すべきセグメント数の最小値が与 えられることとなる。
次に、 チェーン密度であるが、 これは、 或るチェーンが保有する 全セグメント数と、 そのチェーンが占めるビデオデータの部分領域 における全セグメント数との比と して定義される。 これは、 チヱ一 ンが限られた時間領域内に集中して存在する方が好ましい場合があ ることに依る。 この場合、 映像音声処理装置 1 0は、 このチェーン 密度を、 そのチェーン品質測定基準として用いればよい。
最後に、 チェーン強度であるが、 これは、 チェーン内の各セグメ ン卜が互いにどの程度類似しているかを示す指標であり、 当該セグ メントが互いに類似しているほど、 そのチェーンは高い強度を有し ているとみなす。 なお、 映像音声処理装置 1 0において、 このチェ ーン強度を測定する方法については、 以下に示すチェーン内類似性 測定法や、 全ての可能なセグメント対の間の非類似性の平均値をと る方法、 或いは、 全ての可能なセグメント対の間の非類似性の最大 値をとる方法を含め、 多数存在する。
一例として、 映像音声処理装置 1 0が、 チェーン内類似性測定法 によりチェーン強度を測定する場合を示す。 ここで、 チヱ一ン内類 似性測定法とは、 チェーンを構成するセグメントの類似性を、 それ ぞれのセグメントと、 そのチェーンが含む最も代表的なセグメント との非類似性の平均値として表す方法である。 典型的なセグメント の例としては、 チェーンの重心 (centroid) セグメントが挙げられ る。 いま、 チェーン Cにおける重心セグメントを S c c n l ri dとする と、 この重心セグメント S c ent ri dは、 次式 (8) で定義される。
argmin ι
S r dv \S., R (8)
ここで、 上式 ( 8 ) における a r g m i nは、 評価対象の式の値 を最小とする入力 SAecを選択することを表す。
これより、 チェーン強度を d c en l r。 とすると、 このチェーン強 度 d cnt ri dは、 次式 (9 ) のように表される。
Figure imgf000037_0001
さて、 映像音声処理装置 i oは、 上述したチェーン品質測定基準 を用いて、 具体的に図 1 2に示すような一連の処理によりチェーン フィルタリングを行う。
まず、 映像音声処理装置 1 0は、 ステップ S 2 1において、 チェ ーンリス ト C , i s tを候補チェーンで初期化するとともに、 フィルタ リングチェーンリス ト C , i c r を空状態にする。
続いて、 映像音声処理装置 1 0は、 ステップ S 2 2において、 チ エーンリス ト C ,; s tが空状態であるか否かを判別する。
ここで、 チェーンリス ト C M s tが空状態であった場合には、 映像 音声処理装置 1 0は、 対象とする候補チェーンが存在しないことか ら、 一連の処理を終了する。
一方、 チヱーンリス ト C , i s tが空状態でない場合には、 映像音声 処理装置 1 0は、 ステップ S 2 3において、 或るチェーン Cをチェ ーンリス ト C , i s tの最初の要素と し、 チェ一ン Cをチェーンリ ス ト
C , i s tから除去する。
続いて、 映像音声処理装置 1 0は、 ステップ S 2 4において、 チ エーン Cに関するチェーン品質測定基準を計算する。
そして、 映像音声処理装置 1 0は、 ステップ S 2 5において、 こ のチェーン品質測定基準が品質測定基準閾値よりも大きいか否かを 判別する。
ここで、 チェーン品質測定基準が品質測定基準閾値より も小さい 場合には、 映像音声処理装置 1 0は、 ステップ S 2 2へと処理を移 行し、 再び別のチェーンに関する処理を行う。
一方、 チェ一ン品質測定基準が品質測定基準閾値より も大きい場 合には、 映像音声処理装置 1 0は、 ステップ S 2 6において、 フィ ルタ リ ングチェーンリス ト C f i , t。r "にチェ一ン Cを追加する。 そして、 映像音声処理装置 1 0は、 ステップ S 2 7において、 チ ヱ一ンリス ト C , i s tが空状態であるか否かを判別する。
ここで、 チェーンリス ト C M S tが空状態であった場合には、 映像 音声処理装置 1 0は、 対象とする候補チェーンが存在しないことか ら、 一連の処理を終了する。
一方、 チヱ一ンリス ト C M s lが空状態でない場合には、 映像音声 処理装置 1 0は、 ステップ S 2 3へと処理を移行する。 このように して、 映像音声処理装置 1 0は、 チヱーンリ ス ト C , i s tが空状態と なるまで処理を繰り返す。
このような一連の処理によって、 映像音声処理装置 1 0は、 チェ ーンフィルタリングを行い、 どのチヱ一ンが、 ビデオ構造の骨格を なす重要なチェーンであるか、 或いは、 ビデオ構造に関連するチェ ーンであるかを決定することができる。
以上のように、 映像音声処理装置 1 0は、 このようなバッチクラ スタリング技術を用いて、 基本類似チェーンを検出することができ る。
ところで、 映像音声処理装置 1 0は、 バッチクラスタリング技術 とは別の方法として、 上述した逐次クラスタリング技術を用いて、 基本類似チェーンを検出することもできる。 すなわち、 映像音声処 理装置 1 0は、 ビデオデータにおけるセグメントを、 その入力の順 にしたがって 1つずつ処理して、 チヱーン候補リス トを繰り返し更 新していく。 映像音声処理装置 1 0は、 この場合にも、 バッチクラ スタリング技術と同様に、 チェーン検出の主たる工程を 2段階に分 けて行う。 すなわち、 映像音声処理装置 1 0は、 まず、 逐次クラス タリングアルゴリズムを用いて、 類似セグメントのクラスタを検出 する。 次に、 映像音声処理装置 1 0は、 バッチクラスタリング技術 と同様のチェーン品質測定基準を用いて、 検出されたクラスタをフ ィルタリングしていく。 ここで、 映像音声処理装置 1 0は、 逐次ク ラスタリング技術を用いた場合のフィルタリング処理として、 チェ ーンのフィルタリングが早い段階で進められる点において、 バッチ クラスタリング技術の場合と異なる。 さて、 逐次クラスタリング技術においては、 セグメントのクラス タリングを行う際に、 逐次クラスタリングァルゴリズムを用いる。 ところで、 一般に、 ほとんどの逐次クラスタリングは、 局所最適に 行われる。 すなわち、 逐次クラスタリングアルゴリ ズムでは、 新た なセグメン卜が入力される度に、 そのセグメントを既存のクラスタ に割り当てる力、、 或いは、 そのセグメントのみを含む新たなクラス タを生成するかを局所的に判断している。 一方、 より精巧な逐次ク ラスタリングアルゴリズムとしては、 セグメントの入力順序にとも なうバイアス効果を防ぐため、 新たなセグメン 卜が入力される度に、 クラスタ分割そのものを更新するものもある。 このようなアルゴリ ズム {こっレヽて i 、 J. Roure and L. Talavera, Robust increment al clustering with bad instance orderings: a new strategy, In Proceedings of the iixth Iberoamerican Conference on Art if i cal Intelligence, IBERAMIA-98. Pages 136-147. Lisbon, Portug al. Helder Coelho ed. , LNAI vol. 1484. Springer Verlag, 1998 " の記載を参照することができる。
映像音声処理装置 1 0は、 逐次クラスタリングアルゴリズムの一 例として、 図 1 3に示すような処理を行う。 ここでは、 セグメント に分割されたビデオデータが、 セグメント S · · · 、 S„を有し ているものとする。 なお、 ここでは、 チェ一ン解析の工程も含めた 一連の処理について説明する。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 3 1において、 チェーンリ ス ト C , i s lを空状態に初期化し、 ステツ プ S 3 2において、 セグメント番号 i を 1に設定する。
次に、 映像音声処理装置 1 0は、 ステップ S 3 3において、 セグ メント番号 iが総セグメント数 nよりも小さいか否かを判別する。 ここで、 セグメント番号 iが総セグメント数 nよりも大きい場合 には、 映像音声処理装置 1 0は、 対象とするセグメントが存在しな いため、 一連の処理を終了する。
一方、 セグメント番号 iが総セグメント数 nよりも小さい場合に は、 映像音声処理装置 1 0は、 ステップ S 3 4において、 セグメン ト S i、 すなわちここではセグメント S!を取り込み、 ステップ S 3
5において、 チェーンリス ト C , s tが空状態であるか否かを判別す る。
ここで、 チェーンリス ト C , s lが空状態である場合には、 映像音 声処理装置 1 0は、 ステップ S 4 2へと処理を移行する。
一方、 チェーンリス ト C s tが空状態でない場合には、 映像音声 処理装置 1 0は、 ステップ S 3 6において、 セグメント S ,に対する 非類似性が最小であるチェーン Cmi nを求める。 ここで、 チェーン C tai nは、 次式 ( 1 0) のように定義され.る。
Figure imgf000041_0001
上式 ( 1 0) において、 d sc (C S) は、 チェーン Cとセグメ ン ト Sとの間の非類似性測定基準を表し、 次式 ( 1 1 ) で与えられ る。 d SC ,s)
Figure imgf000041_0002
これは、 バッチクラスタリング技術において定義した類似性測定 基準である上式 ( 7) において、 その第 2引数を、 当該セグメント のみを含んだクラスタと したものと等価である。 以下では、 チェ一 ン Cmi,、とセグメント S iとの間の最小非類似性 dSC (C S i) を、 単に dmi nとして表すこととする。
次に、 映像音声処理装置 1 0は、 ステップ S 3 7において、 バッ チクラスタリング技術の場合において説明したような非類似性閾値 δ を用い、 最小非類似性 dmi nが非類似性閾値 δ よりも小さい か否かを判別する。
ここで、 最小非類似性 dmi nが非類似性閾値 δ S imよりも大きい場 合には、 映像音声処理装置 1 0は、 ステップ S 4 2の処理へと移行 し、 唯一の要素セグメントとして当該セグメント s iのみを有する新 たなチェ一ン C 。 を生成し、 ステップ S 4 3において、 新たなチェ —ン Cnwをチェーンリス ト C l i s lに追加して、 ステップ S 3 9の処 理へと移行する。
一方、 最小非類似性 dmi nが非類似性閾値 δ s imよりも小さい場合 には、 映像音声処理装置 1 0は、 ステップ S 3 8において、 チェ一 ン Cmi nに当該セグメント S iを追加する。 すなわち、 映像音声処理 装置 1 0は、 Cmi n— Cmi n U S iとする。
そして、 映像音声処理装置 1 0は、 ステップ S 3 9において、 チ ヱーンをフィルタリングする。 すなわち、 映像音声処理装置 1 0は、 上述したように、 各要素チェーン C e C , i s tについて、 チェーン C の品質を測定して、 品質測定基準閾値を上回る品質測定基準を有す るチェーンのみを選択し、 これをチヱーンリス ト C f i l ^ r に追加 する。 さらに、 映像音声処理装置 1 0は、 ステップ S 4 0において、 逐 次的にチェーンを解析する。 すなわち、 映像音声処理装置 1 0は、 その時点でのフィルタリングされたチェーンリス ト C f i l t c rdを解 析モジュールに通す。
そして、 映像音声処理装置 1 0は、 ステップ S 4 1において、 セ グメント番号 i に 1を加算し、 ステップ S 3 3の処理へと移行する c このようにして、 映像音声処理装置 1 0は、 セグメント番号 iが 総セグメント数 nより も大きくなるまで、 以上の一連の処理を繰り 返し、 セグメント番号 iが総セグメント数 nよりも大きくなつた際 のチェーンリス ト C l i s tの各要素チェーンを、 基本類似チヱ一ンと して検出する。
なお、 同図に示す一連の処理は、 入力されたビデオデータに含ま れる総セグメント数 nが既知であることを前提としている。 しかし ながら、 一般には、 総セグメント数 nが前もって与えられていない 場合も多い。 その場合、 逐次クラスタ リ ングアルゴリズムは、 同図 中ステップ S 3 3において、 セグメントの入力が引き続きあるか否 かによつて、 処理の続行或いは終了を判別すればよい。
このような一連の処理によって、 映像音声処理装置 1 0は、 逐次 クラスタリング技術を用いた基本類似チェーンの検出を行うことが できる。
つぎに、 上述したリンク類似チヱ一ンを検出する処理について説 明する。 映像音声処理装置 1 0におけるリンク類似チェーンの検出 は、 基本類似チェーン検出の特殊なケースとして考えることができ る。 映像音声処理装置 1 0は、 逐次クラスタリングアルゴリズムを 用いたリンク類似チェーン検出方法として、 図 1 4に示すような処 理を行う。 ここでは、 セグメントに分割されたビデオデータが、 セ グメント S ,、 · · · 、 S nを有しているものとする。 なお、 ここで は、 チェーン解析の工程も含めた一連の処理を説明する。
映像音声処理装置 1 0は、 同図に示すように、 ステップ S 5 1に おいて、 チェーンリスト C s tを空状態に初期化し、 ステップ S 5 2において、 セグメント番号 iを 1に設定する。
次に、 映像音声処理装置 1 0は、 ステップ S 5 3において、 セグ メント番号 iが総セグメント数 nよりも小さいか否かを判別する。 ここで、 セグメント番号 iが総セグメント数 nより も大きい場合 には、 映像音声処理装置 1 0は、 対象とするセグメントが存在しな いため、 一連の処理を終了する。
—方、 セグメント番号 iが総セグメント数 nよりも小さい場合に は、 映像音声処理装置 1 0は、 ステップ S 54において、 セグメン ト S ,、 すなわちここではセグメント S ,を取り込み、 ステップ S 5 5において、 セグメント S ,に対する非類似性が最小であるチェーン Cmi nを求める。 ここで、 チェーン Cmi nは、 次式 ( 1 2) のように 定義される。
c^= Lral dsc[c,s) · . · (12)
上式 ( 1 2) において、 d sc (C, S ) は、 やはりチェーンじと セグメント Sとの間の非類似性測定基準を表すが、 リ ンク類似チェ ーン検出においては、 この非類似性測定基準 d sc (C, S) は、 次 式 ( 1 3) で与えられる。 dsc = {c,s)d (s s)
すなわち、 非類似性測定基準 d sc (C, S) は、 基本類似チ ー ンの検出の際に用いた非類似性測定基準である上式 ( 1 1 ) とは異 なり、 当該セグメントと、 チェーン Cにおける最後の要素セグメン トとの間の非類似性として与えられる。
次に、 映像音声処理装置 1 0は、 ステップ S 5 6において、 上述 したような非類似性閾値 s imを用い、 最小非類似性 。が非類似 性閾値 s imよりも小さいか否かを判別する。
ここで、 最小非類似性 が非類似性閾値 s imよりも大きい場 合には、 映像音声処理装置 1 0は、 ステップ S 6 1の処理へと移行 し、 唯—の要素セグメントとして当該セグメント S iのみを有する新 たなチェーン Cnewを生成し、 ステップ S 6 2において、 新たなチェ ーン Cnewをチェ一ンリス ト s tに追加して、 ステップ S 5 8の処 理へと移行する。
一方、 最小非類似性 が非類似性閾値 よりも小さい場合 には、 映像音声処理装置 1 0は、 ステップ S 5 7において、 チェ一 ン Cmi nの末端に当該セグメ ント S iを追加する。 すなわち、 映像音 声処理装置 1 0は、 Cmi n— Cmi n, S iとする。
そして、 映像音声処理装置 1 0は、 ステップ S 5 8において、 チ エーンをフィルタ リ ングする。 すなわち、 映像音声処理装置 1 0は、 上述したように、 各要素チェーン C e C , i s tについて、 チェーン C の品質を測定して、 品質測定基準閾値を上回る品質測定基準を有す るチヱーンのみを選択し、 これをチェーンリス ト C F I L t。r c <iに追加 する。 なお、 映像音声処理装置 1 0は、 この工程を省略することも できる。
さらに、 映像音声処理装置 1 0は、 ステップ S 5 9において、 逐 次的にチ-—ンを解析する。 すなわち、 映像音声処理装置 1 0は、 その時点でのフィルタリングされたチェーンリス ト C 。「 を解 析モジュールに通す。
そして、 映像音声処理装置 1 0は、 ステップ S 6 0において、 セ グメント番号 iに 1を加算し、 ステップ S 5 3の処理へと移行する c このようにして、 映像音声処理装置 1 0は、 セグメント番号 iが 総セグメント数 nよりも大きくなるまで、 以上の一連の処理を繰り 返し、 セグメント番号 iが総セグメント数 ηよりも大きくなつた際 のチェーンリス ト C M s tの各要素チェーンを、 リンク類似チェ一ン と して検出する。
このような一連の処理によって、 映像音声処理装置 1 0は、 この ような逐次クラスタリング技術を用いて、 リンク類似チヱ一ンを検 出することができる。
なお、 同図に示す一連の処理は、 入力されたビデオデータに含ま れる総セグメント数 nが既知であることを前提としている。 しかし ながら、 一般には、 総セグメント数 ηが前もって与えられていない 場合も多い。 その場合、 逐次クラスタ リ ングアルゴリズムは、 同図 中ステップ S 5 3において、 セグメン卜の入力が引き続きあるか否 かによつて、 処理の続行或いは終了を判別すればよい。
つぎに、 上述した周期的チェーンを検出する処理について説明す る。 周期的チェーン C ^ d は、 k個の異なる基本類似チェーン又 はリンク類似チェーンがまとまつたもの { C ,, · · · , C k} とみ なすことができる。 以下、 周期的チヱーン C c yc M c内のセグメント を、 · · · , S „と記述し、 また C ( S i) は、 セグメント S i の出現元のチェーン番号 1、 · . · 、 kを示すこととする。 これよ り、 Ccyc l i cが周期的チェーンであるならば、 C ( S ,) , C ( S
2) , · · · , C ( S n) なる一連のチェーン番号の並びは、 i .
• · , i k, i i , · · · , i k, · · · , i l , · · · , i kとレヽっ开 式で記述されることとなる。 ここで、 その 1周期分 i · · · , i kは、 チヱ一ン番号 1, · · . , kの順列、 換言すれば、 重複しない 任意の並びである。 なお、 以下では、 1周期内に含まれるセグメン 卜の数が 1つである周期的チェーン i i · · · , i 1を基本周 期チェーンと称することとする。
ところで、 通常、 ビデオデータにおける周期的構造は、 各周期が 完全に一致したものではなく近似的なものであるため、 映像音声処 理装置 1 0は、 図 1 5に示すような一連の処理によって、 ビデオデ ータ内の近似的な周期的チェーンを探す。 ここで、 映像音声処理装 置 1 0は、 必要に応じて、 その元となる基本周期チェーンが均一で なければならないという制約条件を追加することができる。 ここで は、 この制約条件のもとに行われる処理について説明する。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 7 1及びステップ S 7 2において、 ビデオデータに含まれる基本周 期チェーンを検出し、 それに基づいて初期チェーンリス トを生成し、 さらに初期チェーンリス トに含まれる基本周期チェーンの全てが均 一チェーンの制約条件を満たすように、 初期チェーンリス トを更新 する。 すなわち、 映像音声処理装置 1 0は、 ステップ S 7 1において、 上述した基本類似チヱーン又はリンク類似チェーンを検出するアル ゴリ ズムを用いて、 初期チェーンリス ト C , i nを求める。
そして、 映像音声処理装置 1 0は、 ステップ S 7 2において、 初 期チェーンリス 卜に含まれる各チェーン Cについて、 その均一性を 確認し、 チェーン Cが均一でない場合には、 このチェーン Cを、 そ の時間的間隔が最大となるような複数の均一サブチェーンに分割す る。 続いて、 映像音声処理装置 1 0は、 得られた均一サブチェーン を、 上述した基本類似チェーン又はリンク類似チェーンを検出する アルゴリズムにおいて説明したようなチヱ一ン品質測定基準を用い てフィルタリングし、 選択された均一サブチェーンを初期チェ一ン リス ト C , i s tに追加する。
次に、 映像音声処理装置 1 0は、 ステップ S 7 3において、 チェ ーンリス ト C , i s tの中から、 時間的に重複して交差する 1対のチヱ
—ン、 すなわち、 ョ c c I [c , s 1 a r l, c i cnd] n [c2 s l a r t, C 2 end] なるチェーン c c2を求める。
そして、 映像音声処理装置 1 0は、 ステップ S 74において、 こ のような重複しているチヱーン C C 2が存在するか否かを判別す る。
ここで、 重複しているチェーン C C が存在しない場合には、 映像音声処理装置 1 0は、 チェーンリス C l i s tが既に複数の周期 的チェーンを含んでいるものとして、 一連の処理を終了する。
一方、 重複しているチェーン C C2が存在する場合には、 映像 音声処理装置 1 0は、 ステップ S 7 5乃至ステップ S 7 8において、 2つのチェーン C C2がまとまった 1つの周期的チェーンを構成 するか否 c Cかを決定するため、 その 2つの周期的チェ一ンを合わせた 周期的チェーンにおいて、 各周期の間の整合性を評価する。
すなわち、 映像音声処理装置 1 0は、 ステップ S 7 5において、 2つのチヱーン C C 2を合わせて、 新たな周期的チェーン CMを形 成する。 ここで、 チェーン CMにおけるセグメントを S S 2, · · • , S i cM iと表すこととする。
続いて、 映像音声処理装置 1 0は、 ステップ S 7 6において、 セ グメント S ,の出現元のチェーン番号 C (S ,) を Cとし、 チェーン 番号の並び C ( S ,) , C ( S 2) , . · · , C ( S I CM I) において Cの発生毎に、 すなわち、 セグメント S iと同じチェーンに属するセ グメントが出現する直前を境に、 チェーン CMをサブチェ一ン CM1 , CM2, · · · , Cr に分解する。 この結果、 映像音声処理装置 1 0 は、 次式 ( 1 4 ) に示すようなサブチェーンのリ ス トを得る。
-,S.,
S
'2,
(14)
C* =5.
この操作から明らかなように、 上式 ( 1 4 ) では、 全ての CM Jに ついて、 C ( S M + 1 ) = C ( S >) が成り立つ。
続いて、 映像音声処理装置 1 0は、 ステップ S 7 7において、 最 も出現頻度の高いサブチェーン C M E Y E L Eを見つける。 すなわち、 映 像音声処理装置 1 0は、 次式 ( 1 5 ) に示すような処理を行う。 M
Figure imgf000050_0001
そして、 映像音声処理装置 1 0は、 ステップ S 7 8において、 最 も出現頻度の高いサブチェーン cM c eが、 元のチ ーン cMの 1周 期となり うるか否かを評価する。 すなわち、 映像音声処理装置 1 0 は、 整合係数 m e s hを、 次式 ( 1 6) で示すように、 ステップ S 7 6にて求めた CM。 "'。の出現頻度のサブチヱ一ン総数に対する比 で定義し、 続くステップ S 7 9において、 この整合係数が所定の閾 値を越えるか否かを判別する。
Figure imgf000050_0002
ここで、 整合係数が閾値を越えていない場合には、 映像音声処理 装置 1 0は、 ステップ S 7 3の処理へと移行し、 他の重複している チェーンを求めて同様の処理を繰り返す。
—方、 整合係数が閾値を越えている場合には、 映像音声処理装置 1 0は、 ステップ S 8 0において、 チェーン C ,, C 2をチェーンリ ス ト C , i s tから除去して、 ステップ S 8 1において、 チェーン CMを チェーンリス C l i s lに追加し、 ステップ S 7 3の処理へと移行す る。
映像音声処理装置 1 0は、 チェーンリ ス ト C , i s tに含まれる全て の周期的チェーンについて重複しているチェーンが存在しなくなる までこのような一連の処理を繰り返すことによって、 最終的な周期 的チェーンを含むチヱーンリス ト C l i s lを得ることができる。
以上のように、 映像音声処理装置 1 0は、 非類似性測定基準と抽 出した特徴量とを用いて、 類似したセグメン トの各種チェーンを検 出することができる。
つぎに、 図 5中ステップ S 5におけるチェーン解析について説明 する。 映像音声処理装置 1 0は、 検出したチェーンを用いて、 ビデ ォデータの局所的ビデオ構造及びノ又は大局的ビデオ構造を決定し て出力する。 ここでは、 ビデオデータに発生する基本的な構造バタ
—ンを検出するのに、 チェーン解析の結果をどのように用いるのか について具体的な例を挙げて説明する。
まず、 ビデオデータに発生する局所的な構造パターンであるシー ンについて説明する。
シーンは、 上述したように、 セグメ ン トのレベルより上位に位置 づけられた最も基本的な局所的ビデオ構造の単位であり、 意味的に 関連する一連のセグメントから構成される。 映像音声処理装置 1 0 は、 チェーンを用いて、 これらのシーンを検出することができる。 映像音声処理装置 1 0におけるシーン検出において、 チェーンが満 たすべき条件とは、 そのチヱ一ンが含む全てのセグメントに関して、 互いに連続したセグメント間の時間間隔が、 時間閾値と称される或 る定められた値を超えないことである。 ここでは、 この条件を満た すチェーンを局所チェーンと称する。
映像音声処理装置 1 0は、 チェーンを用いてシーンを検出するた めに、 図 1 6に示すような一連の処理を行う。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 9 1乃至ステップ S 94において、 局所チェ一ンリス トを求める。 すなわち、 映像音声処理装置 1 0は、 ステップ S 9 1において、 上述した基本類似チヱーン検出アルゴリズムを用いて、 1組の初期 チェーンリス トを求める。
次に、 映像音声処理装置 1 0は、 ステップ S 9 2において、 求め た初期チェ一ンリス トにおける各チェーン Cについて、 チェーン C が局所チェーンでない場合には、 チェーン Cを、 局所チェーンの条 件範囲において最長であるところの局所サブチヱ一ン C = C · · •, C nの並びに分解する。
その後、 映像音声処理装置 1 0は、 ステップ S 9 3において、 チ ヱーンリ ス トからチェーン Cを除去する。
さらに、 映像音声処理装置 1 0は、 ステップ S 94において、 各 サブチェーン C iをチェーンリス トに追加する。 この工程が終了する と、 全てのチェーンが局所的となる。
次に、 映像音声処理装置 1 0は、 ステップ S 9 5において、 チェ ーンリス 卜の中から、 時間的に交差する 1対の重複しているチヱ一 ン c c2、 すなわち、 ョ c c2 I [c,slart, c i ond [c tS Γ l, C a0"'] であるところのチェーン C ,, C2を求める。
続いて、 映像音声処理装置 1 0は、 ステップ S 9 6において、 こ のような重複しているチヱ一ン C ,, C 2が存在するか否かを判別す る。 ここで、 重複しているチェーン C ,, C 2が存在しない場合には、 映像音声処理装置 1 0は、 チェーンリストに含まれた各チェーン毎 に 1つのシーンが存在するものとして、 一連の処理を終了する。 一方、 重複しているチェーン C C 2が存在する場合には、 映像 音声処理装置 1 0は、 ステップ S 9 7において、 重複しているチェ ーン C i, C 2を合わせて、 新たなチェーン C Mを形成する。
さらに、 映像音声処理装置 1 0は、 ステップ S 9 8において、 チ エーンリス トから重複しているチェ一ン C C 2を除去して、 チェ 一ン C Mを追加し、 その後再びステップ S 9 5の処理へと移行して、 同様の処理を繰り返す。
このようにした結果、 重複しているチェーンがチェーンリス ト内 に存在しなくなったとき、 最終的に得られたチェ一ンリ ス トに含ま れた各チェーン毎に、 1シーンが存在することになる。 なお、 チェ ーン C iに対応するシーン S iの境界は、 C s l s M及び c。n dで与えら れる。
ところで、 セグメントの中には、 いかなるチェーンにも割り当て られずに残るものがあるが、 映像音声処理装置 1 0は、 既定値と し ては、 2つの検出されたシーン間に残ったこのようなセグメントを まとめて 1つのシーンとする。
このような一連の処理によって、 映像音声処理装置 1 0は、 チヱ ーンを用いることによって、 ビデオデータにおける局所的な構造パ ターンであるシーンを検出することができる。
このような処理を先に図 2に示した会話場面に適用する場合を考 える。 この場合、 映像音声処理装置 1 0は、 ステップ S 9 1乃至ス テツプ S 9 4において、 話し手のセグメントのそれぞれについて、 局所チェーンを求める。 そして、 映像音声処理装置 1 0は、 ステツ プ S 9 7において、 これらのチェーンをまとめ、 シーン全体を表す 単一の大きいチェーンを形成することになる。
このように、 映像音声処理装置 1 0は、 会話場面におけるシーン を検出することができる。
なお、 映像音声処理装置 1 0においては、 シーンを検出した際に、 シーン内の全てのセグメントがチェーンに含まれる訳ではないこと には注意を要する。
また、 映像音声処理装置 1 0は、 上述したアルゴリ ズムを逐次的 に行うことによって、 シーンを逐次的に検出することもできる。 つぎに、 大局的な構造パターンとして、 ニュース項目を検出する 場合について説明する。
上述したように、 ニュース番組は、 そのニュース項目が、 例えば、 まずアンカーによる導入文で始まり、 現場からの 1以上のリポート が続く といった周期的構造を有している。 すなわち、 このようなビ デォ構造は、 アンカーショ ッ トから次のアンカーショ ッ 卜の直前ま でを 1周期とした単純な周期的構造であるとみなすことができる。 映像音声処理装置 1 0は、 チェーンを用いてニュース項目を自動 的に検出するために、 図 1 7に概略を示すような一連の処理を行う。 まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 1 0 1において、 上述した周期的チェーン検出アルゴリズムを用い て、 周期的チェーンの検出を行う。 この工程を行うことによって、 映像音声処理装置 1 0は、 周期的チェーンのリス トを得ることがで きる。 ここで、 各周期は、 ニュース項目を表してもよく、 表さなく てもよい。 次に、 映像音声処理装置 1 0は、 ステップ S 1 0 2において、 そ の周期が、 ビデオデータの全長の所定割合よりも短いところの周期 的チェーンを全て除去する。 すなわち、 映像音声処理装置 1 0は、 この工程を行うことによって、 ニュース項目を表す見込みのない短 い周期の周期的チェーンを排除することができる。 このような周期 は、 例えば司会者がゲス 卜にインタビューをする場合或いは他の短 時間周期がニュース放送において現れる場合に発生しうるものであ る。
そして、 映像音声処理装置 1 0は、 ステップ S 1 0 3において、 ステップ S 1 0 2において残った全ての周期的チェーンについて、 時間的に最も短い周期的チェーンを求め、 この周期的チェーンが他 の周期的チェーンに重なる場合には、 その周期的チェーンを周期的 チヱーンのリス トから除去する。 映像音声処理装置 1 0は、 いかな る周期的チェーンも他の周期的チェーンと重なることがなくなるま で、 この処理を繰り返す。 このステップ S 1 0 3が終了した後に残 つた周期的チェーンのリス トは、 検出したニュース項目リス トを含 むこととなる。 すなわち、 ステップ 1 0 3にて得られた周期的チェ ーンのリス トの各周期は、 それぞれ、 1つのニュース項目を表す。 このようにして、 映像音声処理装置 1 0は、 チェーンを用いて二 ユース項目を自動的に検出することができる。
なお、 特筆すべきは、 映像音声処理装置 1 0は、 例えば、 ニュー ス放送のメイン、 スポーツ、 ビジネスの各セグメン トの間といった ュユース放送の途中にニュースキャスターが変わった場合にも、 問 題なく作用することができることである。
つぎに、 スポーツ放送におけるプレイを検出する場合について説 明する。
多くのスポーツは、 同じ一連の工程が何度も繰り返されることに よりプレイが構成されるといった固定パターンを有するという特徴 がある。 例えば、 野球の場合には、 ピッチャーがポールを投げ、 バ ッターがボールを打とうとすることによりプレイが構成される。 ビ デォデータにおいて、 このようなプレイ構造を有する他のチームス ポ一ッとしては、 例えばフッ トポールやラグビーが挙げられる。 このプレイ構造が放送されると、 ビデオデータは、 プレイの各部 分についてのセグメント群の繰り返しを表すこととなる。 すなわち, ビデオデータは、 ピッチャーを表すセグメントの後に、 バッターを 表すセグメントが続き、 ボールが打たれた場合には、 外野選手等を 表すセグメントが入ることになる。 そのため、 野球放送に対して映 像音声処理装置 1 0によるチヱ一ン検出を適用した場合には、 ビデ ォデータにおいて、 ピッチャーを表すセグメントが 1チェーンと し て検出され、 バッターを表すセグメントが別の 1チェーンを占め、 その他のチェーンが外野や種々の光景にあたることになる。
すなわち、 これらのスポーツ放送においては、 プレイ構造が、 上 述した周期的チェーン検出方法を用いて検出することができる周期 的映像となる。 このような他の例として、 テニスが挙げられる。 テ ニスにおいて、 ビデオデータは、 サーブ、 ボレー、 サーブ、 ボレー といったような周期を構成する。 この場合、 各サーブを表すセグメ ントは、 映像的に互いに類似しているため、 映像音声処理装置 1 0 は、 プレイを検出するために、 このようなセグメントを用いること ができる。 その結果、 映像音声処理装置 1 0による構造解析におい ては、 近似的にゲームのプレイ構造を検出することができる。 さらに、 他のスポーツ、 特に個人競技においては、 プレイ構造と しては、 1人の競技者が或る活動を完結するまで行うことになるが- 各競技者は、 全て近似的に同じ活動を行っているとみなすことがで きる。 例えば、 スキージャンプ競技では、 各競技者が 1回ジャンプ を行い、 次の競技者が続いて同様のジャンプを行う。 すなわち、 ジ ヤンプ競技の放送におけるビデオデータは、 競技者がジャンプの準 備に入り、 助走路を滑り降りて、 着地するというセグメントの並び からなるのが一般的である。 これより、 ビデオデータは、 このよう な一連のセグメン トを、 各競技者毎に繰り返すことで構成される。 このような放送におけるビデオデータに対してチェーン検出を適用 した場合には、 ジャンプの各段階毎に類似した一連のチヱ一ンを検 出することになる。 したがって、 各競技者毎の周期は、 周期的チェ ーン検出方法を用いて抽出することができる。
映像音声処理装置 1 0において、 チェーン解析によりスポーツ放 送におけるプレイを自動的に検出する際には、 適当でないチェーン を排除するために、 さらなる制約を設ける必要がある場合がある。 どのような制約が適切であるかは、 スポーツの種類によって異なる が、 例えば、 映像音声処理装置 1 0は、 検出された周期的チェーン のうち、 その周期が十分長いものだけをプレイとして検出するとい う経験的なルールを用いることができる。
すなわち、 映像音声処理装置 1 0は、 チェーンを用いてスポーツ 放送におけるプレイを自動的に検出するために、 図 1 8に概略を示 すような一連の処理を行う。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 1 1 1において、 上述した周期的チェ一ン検出アルゴリズムを用い て、 周期的チェーンを検出する。
そして、 映像音声処理装置 1 0は、 ステップ S 1 1 2において、 得られたチェーンのリス トに対して品質条件を適用し、 そのチェ一 ンリス トをフィルタリングして、 本質的でないチヱ一ンを除去する c 品質条件としては、 例えば、 プログラムの大部分にわたるような周 期的チェーンのみを残すといったことが挙げられる。 勿論、 映像音 声処理装置 1 0は、 対象とするスポーツに特有の制約条件を追加し てもよい。
このようにして、 映像音声処理装置 1 0は、 チェーン解析により スポーツ放送におけるプレイを自動的に検出することができる。 つぎに、 周期検出とシーン検出とを組み合わせてトピックを検出 する場合について説明する。
例えば、 ドラマ、 コメディ、 バラエティといった多くのテレビ番 組におけるビデオデータは、 上述したシーンにより構成されている。 しかし、 ビデオデータは、 その上位の構造として、 幾つかの関連シ ーンの並びから構成される トピックなる構造を有する場合がある。 このトピックは、 必ずしも、 常にスタジオ司会者による紹介セグメ ン卜に始まるような-ユース放送における トピックと類似したもの であるとは限らない。 例えば、 視覚的な例として、 紹介セグメント の代わりにロゴイメージのセグメント或いは総合司会者のセグメン トが用いられたり、 或いは聴覚的な例として、 新たなトピックが始 まる度に、 常に同じテーマ音楽が流されたりする場合がある。
或る番組におけるビデオデータが、 このようなトピック構造を有 しているか否かは、 周期検出とシーン検出とを組み合わせることに よって、 判断することができる。 そのため、 映像音声処理装置 1 0は、 チェーンを用いた周期検出 とシーン検出とを組み合わせたトピック検出を行うために、 図 1 9 に概略を示すような一連の処理を行う。
まず、 映像音声処理装置 1 0は、 同図に示すように、 ステップ S 1 2 1において、 基本類似チェーン検出を行い、 1組の基本類似チ エーンリス トを識別する。
次に、 映像音声処理装置 1 0は、 ステップ S 1 2. 2において、 周 期的チェーン検出を行い、 1組の周期的チェーンのリス トを識別す る。
続いて、 映像音声処理装置 1 0は、 ステップ S 1 2 3において、 ステップ S 1 2 1において求めた基本類似チェ一ンリス トを用い、 先に図 1 6に示したアルゴリズムを適用して、 シーン構造を抽出す る。 映像音声処理装置 1 0は、 この結果、 シーンのリ ス トを得るこ とができる。
そして、 映像音声処理装置 1 0は、 ステップ S 1 2 4において、 ステップ S 1 2 2において求めた周期的チェーンのリス トを、 ステ ップ S 1 2 3において検出した各シーン要素と比較する。 ここで、 映像音声処理装置 1 0は、 検出したシーンのリス トに含まれるシー ンょりも短い周期の周期的チェーンを全て除去する。 この結果得ら れた残りの周期的チヱーンは、 各周期が幾つかのシーンを有してい るが、 この各周期はそれぞれ、 候補トピックとして識別されること となる。
このようにして、 映像音声処理装置 1 0は、 チヱーンを用いた周 期検出とシーン検出とを組み合わせることによって、 トピック検出 を行うことができる。 なお、 映像音声処理装置 1 0は、 ステップ S 1 2 4において、 そ の他の制約や品質条件を設けることによって、 トピック検出の精度 を高めることもできる。
以上のように、 映像音声処理装置 1 0は、 検出した各種チェーン を用いて、 ビデオデータの各種局所的ビデオ構造及びノ又は各種大 局的ビデオ構造を決定して出力することができる。
以上説明してきたように、 本発明の実施の形態と して示す映像音 声処理装置 1 0は、 互いに類似する複数の映像セグメント又は音声 セグメン卜から構成される類似チェーンを検出することが可能であ る。 そして、 映像音声処理装置 1 0は、 これらの類似チェーンを解 析することによって、 高レベルのビデオ構造を抽出することができ る。 特に、 映像音声処理装置 1 0は、 局所的ビデオ構造及び大局的 ビデオ構造の解析を共通の枠組みで行うことができる。
この映像音声処理装置 1 0は、 完全に自動的に処理を行うことが でき、 ユーザが事前にビデオデータの内容の構造を知る必要はない c また、 映像音声処理装置 1 0は、 逐次的なチェーン検出を用いる ことにより、 逐次的にビデオ構造を解析することも可能であり、 さ らに、 プラッ トホームの計算能力が十分強力であるならば、 ビデオ 構造解析を実時間で行うことが可能である。 これにより、 映像音声 処理装置 1 0は、 事前に記録されたビデオデータの他、 ライプのビ デォ放送にも用いることができる。 例えば、 映像音声処理装置 1 0 は、 スポーツ放送におけるプレイ検出において、 ライブのスポーツ 放送に適用可能である。
さらに、 映像音声処理装置 1 0は、 ビデオ構造を検出した結果、 ビデオブラゥジングのための新たな高レベルアクセスの基礎を与え ることができる。 すなわち、 映像音声処理装置 1 0は、 セグメント ではなく トピックといった高レベルのビデオ構造を用いてビデオデ ータの内容を映像化することにより、 内容に基づいたビデオデータ へのアクセスを可能とする。 例えば、 映像音声処理装置 1 0は、 シ ーンを表示することにより、 ユーザは、 番組の要旨をすばやく知る ことができ、 興味のある部分を迅速に見つけることができる。
さらにまた、 映像音声処理装置 1 0は、 ニュース放送における ト ピック検出の結果を用いることにより、 ュ一ザに、 ニュース項目単 位での選択や視聴を可能とする等、 ニュース放送に対して、 強力で 新しい方法のアクセスを可能とする。
また、 映像音声処理装置 1 0は、 ビデオ構造検出の結果、 ビデオ データの要約を自動的に作成するための基礎を与えることができる。 一般に、 筋の通った要約を作成するためには、 ビデオデータに含ま れる任意のセグメントを組み合わせるのではなく、 ビデオデータを 再構成可能な意味を持つ成分に分解し、 それを元に適切なセグメン トを組み合わせることが必要である。 映像音声処理装置 1 0により 検出されたビデオ構造は、 そのような要約を作成するための基礎的 な情報を提供するものである。
さらに、 映像音声処理装置 1 0では、 ビデオデータを、 そのジャ ンル別に解析することが可能である。 例えば、 映像音声処理装置 1 0は、 テニスの試合のみを検出することを可能とする。
これより、 映像音声処理装置 1 0は、 放送局におけるビデオ編集 システムに組み込まれることにより、 ビデオデータを、 その内容に 基づいて編集することを可能とする。
さらにまた、 映像音声処理装置 1 0は、 一般家庭において、 ホー ムビデオを解析したり、 ホームビデオからビデオ構造を自動的に抽 出するのに用いることができる。 さらに、 映像音声処理装置 1 0は. ビデオデータの内容の要約や、 その内容に基づいた編集を行うのに 用いることができる。
一方、 映像音声処理装置 1 0は、 ビデオチヱーンを、 人手による ビデオデータの内容の解析を補足するツールとして使用することが 可能である。 特に、 映像音声処理装置 1 0は、 チ: ーン検出の結果 を映像化することにより、 ビデオデータの内容のナビゲーションゃ ビデオ構造解析が容易にすることができる。
また、 映像音声処理装置 1 0は、 そのアルゴリ ズムが非常に単純 であり計算上の効率もよいため、 セッ ト トップボックスゃデイジタ ルビデオレコ一ダ、 ホームサーバ等の家庭用電子機器にも適用する ことができる。
なお、 本発明は、 上述した実施の形態に限定されるものではなく, 例えば、 セグメント間の類似性測定のために用いる特徴量や、 適用 可能なビデオデータの内容等は、 上述したもの以外でもよいことは 勿論であり、 その他、 本発明の趣旨を逸脱しない範囲で適宜変更が 可能であることはいうまでもない。 産業上の利用可能性 以上詳細に説明したように、 本発明にかかる信号処理方法は、 供 給された信号の内容の意味構造を反映するパターンを検出して解析 する信号処理方法であって、 信号を構成する連続したフレームのひ と続きから形成されるセグメントから、 その特徴を表す少なく とも 1つ以上の特徴量を抽出する特徴量抽出工程と、 特徴量を用いて、 特徴量のそれぞれ毎に、 セグメン卜の対の間の類似性を測定する測 定基準を算出して、 この測定基準によりセグメントの対の間の類似 性を測定する類似性測定工程と、 特徴量と測定基準とを用いて、 セ グメントのうち、 互いに類似する複数のセグメントから構成される 類似チェーンを検出する検出工程とを備える。
したがって、 本発明にかかる信号処理方法は、 信号において類似 したセグメントが構成する基本的な構造パターンを検出することが でき、 これらの構造パターンがどのように組み合わせられているか を解析することによって、 高レベルの構造を抽出することができる c また、 本発明にかかる映像音声処理装置は、 供給されたビデオ信 号の内容の意味構造を反映する映像及び 又は音声のパターンを検 出して解析する映像音声処理装置であって、 ビデオ信号を構成する 連続した映像及び 又は音声フレームのひと続きから形成される映 像及びノ又は音声セグメン トから、 その特徴を表す少なく とも 1つ 以上の特徴量を抽出する特徴量抽出手段と、 特徴量を用いて、 特徴 量のそれぞれ毎に、 映像及び 又は音声セグメン卜の対の間の類似 性を測定する測定基準を算出して、 この測定基準により映像及び 又は音声セグメントの対の間の類似性を測定する類似性測定手段と、 特徴量と測定基準とを用いて、 映像及び 又は音声セグメン トのう ち、 互いに類似する複数の映像及びノ又は音声セグメントから構成 される類似チェーンを検出する検出手段とを備える。
したがって、 本発明にかかる映像音声処理装置は、 ビデオ信号に おいて類似した映像及び/又は音声セグメン卜の基本的な構造バタ —ンを決定して出力することが可能であり、 これらの構造パターン がどのように組み合わせられているかを解析することによって、 高 レベルのビデオ構造を抽出することが可能となる。

Claims

請求の範囲
1 . 供給された信号の内容の意味構造を反映するパターンを検出し て解析する信号処理方法であって、
上記信号を構成する連続したフレームのひと続きから形成される セグメン トから、 その特徴を表す少なく とも 1つ以上の特徴量を抽 出する特徴量抽出工程と、
上記特徴量を用いて、 上記特徴量のそれぞれ毎に、 上記セグメン 卜の対の間の類似性を測定する測定基準を算出して、 この測定基準 により上記セグメントの対の間の類似性を測定する類似性測定工程 と、
上記特徴量と上記測定基準とを用いて、 上記セグメン トのうち、 互いに類似する複数のセグメントから構成される類似チェーンを検 出する検出工程とを備えること
を特徴とする信号処理方法。
2 . 上記類似チューンを用いて解析し、 上記信号の局所的構造及び /又は大局的構造を決定して出力する解析工程を備えること を特徴とする請求の範囲第 1項記載の信号処理方法。
3 . 上記信号とは、 ビデオデータにおける映像信号と音声信号との 少なく とも 1つであること
を特徴とする請求の範囲第 1項記載の信号処理方法。
4 . 上記類似チェーンは、 当該類似チヱーンが含む類似セグメン ト の間の関係に制約を有すること
を特徴とする請求の範囲第 1項記載の信号処理方法。
5 . 上記類似チェーンは、 当該類似チヱーンの構造に制約を有する こと
を特徴とする請求の範囲第 1項記載の信号処理方法。
6 . 上記類似チェーンは、 当該類似チェーンが含む全てのセグメン トが互いに類似した関係にある基本類似チェーンであること を特徴とする請求の範囲第 4項記載の信号処理方法。
7 . 上記類似チヱ一ンは、 当該類似チェーンが含む全てのセグメン トにおいて、 隣接するセグメントが互いに類似した関係にあるリン ク類似チヱ一ンであること
を特徴とする請求の範囲第 4項記載の信号処理方法。
8 . 上記類似チヱ一ンは、 当該類似チェーンが含む全てのセグメン トにおいて、 セグメントのそれぞれが、 当該セグメントから所定の 数だけ後方に配置されたセグメントと互いに類似した関係にある周 期的チヱ一ンであること
を特徴とする請求の範囲第 4項記載の信号処理方法。
9 . 上記類似チヱ一ンは、 当該類似チェーンが含む全てのセグメン 卜において、 隣接するセグメントの各対における時間間隔が、 所定 の時間より も短い局所チェーンであること
を特徴とする請求の範囲第 5項記載の信号処理方法。
1 0 . 上記類似チェーンは、 当該類似チヱーンが含む全てのセグメ ン卜において、 セグメン卜が近似的に等時間間隔で出現する均一チ ヱーンであること
を特徴とする請求の範囲第 5項記載の信号処理方法。
1 1 . 上記検出工程は、 上記特徴量と上記測定基準とを用いて、 互 いに類似しているセグメントを検出してまとめて候補チェーンを形 成する候補チェーン検出工程と、 上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基 準を算出して、 上記信号の構造パターン解析における上記候補チェ ーンの重要性及び関連性を測定し、 上記品質測定基準が所定の品質 測定基準閾値を上回る候補チェーンのみを出力するフィルタリング 工程とを有すること
を特徴とする請求の範囲第 6項記載の信号処理方法。
1 2 . 上記信号におけるセグメントのうち、 セグメントが供給され た時間順にしたがって当該セグメントを 1つずつ逐次処理すること を特徴とする請求の範囲第 2項記載の信号処理方法。
1 3 . 上記検出工程は、 対象とするセグメン トに関する上記特徴量 と上記測定基準とを用いて、 当該セグメントを含む候補チヱ一ンを 随時更新して求める候補チェーン検出工程と、
上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基 準を算出して、 上記信号の構造パターン解析における上記候補チェ —ンの重要性及び関連性を測定し、 上記品質測定基準が所定の品質 測定基準閾値を上回る候補チェーンのみを出力するフィルタリング 工程とを有すること
を特徴とする請求の範囲第 1 2項記載の信号処理方法。
1 4 . 上記検出工程は、 周期的チェーンの初期候補を求める初期周 期的チェーン検出工程と、
上記周期的チ ーンの初期候補の中から、 時間的に交差する重複 チェーンを求める重複チヱ一ン検出工程と、
上記重複チ-ーンの整合を求める整合工程とを有すること を特徴とする請求の範囲第 8項記載の信号処理方法。
1 5 . 上記解析工程により、 上記類似チヱーンを用いて、 上記信号 の局所的構造として、 セグメントの意味に基づく部分集合であるシ ーンを検出して出力すること
を特徴とする請求の範囲第 2項記載の信号処理方法。
1 6 . 上記解析工程により、 上記類似チヱーンを用いて、 上記信号 の大局的構造として、 互いに類似するセグメン卜が反復的に発生す る構造パターンを検出して出力すること
を特徴とする請求の範囲第 2項記載の信号処理方法。
1 7 . 上記構造パターンと して、 ニュース放送におけるニュース項 目を検出して出力すること
を特徴とする請求の範囲第 1 6項記載の信号処理方法。
1 8 . 上記構造パターンとして、 プレイが反復的に発生するスポー ッ放送におけるビデオ構造を検出して出力すること
を特徴とする請求の範囲第 1 6項記載の信号処理方法。
1 9 . 上記解析工程により、 上記類似チェーンを用いて、 セグメン 卜の意味に基づく部分集合であるシーンのうち、 関連するシーンを まとめたトピック構造を検出して出力すること
を特徴とする請求の範囲第 2項記載の信号処理方法。
2 0 . 供給されたビデオ信号の内容の意味構造を反映する映像及び 又は音声のパターンを検出して解析する映像音声処理装置であつ て、
上記ビデオ信号を構成する連続した映像及び 又は音声フレーム のひと続きから形成される映像及び/又は音声セグメントカゝら、 そ の特徴を表す少なく とも 1つ以上の特徴量を抽出する特徴量抽出手 段と、
上記特徴量を用いて、 上記特徴量のそれぞれ毎に、 上記映像及び 又は音声セグメン卜の対の間の類似性を測定する測定基準を算出 して、 この測定基準により上記映像及び/又は音声セグメントの対 の間の類似性を測定する類似性測定手段と、
上記特徴量と上記測定基準とを用いて、 上記映像及び 又は音声 セグメントのうち、 互いに類似する複数の映像及び 又は音声セグ メン卜から構成される類似チェーンを検出する検出手段とを備える こと
を特徴とする映像音声処理装置。
2 1 . 上記類似チェ一ンを用いて解析し、 上記ビデオ信号の局所的 ビデオ構造及びノ又は大局的ビデオ構造を決定して出力する解析手 段を備えること
を特徴とする請求の範囲第 2 0項記載の映像音声処理装置。
2 2 . 上記類似チ-ーンは、 当該類似チヱ一ンが含む類似の映像及 び 又は音声セグメン卜の間の関係に制約を有すること
を特徴とする請求の範囲第 2 0項記載の映像音声処理装置。
2 3 . 上記類似チェーンは、 当該類似チェーンの構造に制約を有す ること
を特徴とする請求の範囲第 2 0項記載の映像音声処理装置。
2 4 . 上記類似チヱーンは、 当該類似チェーンが含む全ての映像及 び Z又は音声セグメントが互いに類似した関係にある基本類似チェ ーンであること
を特徴とする請求の範囲第 2 2項記載の映像音声処理装置。
2 5 . 上記類似チェーンは、 当該類似チェーンが含む全ての映像及 び 又は音声セグメントにおいて、 隣接する映像及び Z又は音声セ グメン卜が互いに類似した関係にあるリンク類似チェ一ンであるこ と
を特徴とする請求の範囲第 2 2項記載の映像音声処理装置。
2 6 . 上記類似チヱーンは、 当該類似チェーンが含む全ての映像及 びノ又は音声セグメン トにおいて、 映像及び 又は音声セグメン ト のそれぞれが、 当該セグメン卜から所定の数だけ後方に配置された 映像及びノ又は音声セグメントと互いに類似した関係にある周期的 チェーンであること
を特徴とする請求の範囲第 2 2項記載の映像音声処理装置。
2 7 . 上記類似チヱ一ンは、 当該類似チェーンが含む全ての映像及 び 又は音声セグメン卜において、 隣接する映像及び/又は音声セ グメン卜の各対における時間間隔が、 所定の時間より も短い局所チ ェ一ンであること
を特徴とする請求の範囲第 2 3項記載の映像音声処理装置。
2 8 . 上記類似チヱーンは、 当該類似チヱ一ンが含む全ての映像及 び/又は音声セグメントにおいて、 映像及び/又は音声セグメント が近似的に等時間間隔で出現する均一チェーンであること
を特徴とする請求の範囲第 2 3項記載の映像音声処理装置。
2 9 . 上記検出手段は、 上記特徴量と上記測定基準とを用いて、 互 いに類似している映像及び/又は音声セグメントを検出してまとめ て候補チェーンを形成し、 上記候補チェーンのそれぞれ毎に数的基 準に対応する品質測定基準を算出して、 上記ビデオ信号の構造バタ ーン解析に対する上記候捕チェ一ンの重要性及び関連性を測定し、 上記品質測定基準が所定の品質測定基準閾値を上回る候補チェーン のみを出力すること
を特徴とする請求の範囲第 2 4項記載の映像音声処理装置。
3 0 . 上記ビデオ信号における映像及び 又は音声セグメン トのう ち、 映像及び Z又は音声セグメン卜が供給された時間順にしたがつ て当該映像及び/又は音声セグメントを 1つずつ逐次処理すること を特徴とする請求の範囲第 2 1項記載の映像音声処理装置。
3 1 . 上記検出手段は、 対象とする上記現映像及び/又は音声セグ メン卜に関する上記特徴量と上記測定基準とを用いて、 当該映像及 び 又は音声セグメントを含む候補チェーンを随時更新して求め、 上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基準 を算出して、 上記ビデオ信号の構造パターン解析における上記候捕 チェーンの重要性及び関連性を測定し、 上記品質測定基準が所定の 品質測定基準閾値を上回る候補チェーンのみを出力すること を特徴とする請求の範囲第 3 0項記載の映像音声処理装置。
3 2 . 上記検出手段は、 周期的チェーンの初期候補を求め、 上記周 期的チェーンの初期候補の中から、 時間的に交差する重複チェ一ン を求め、 上記重複チェーンの整合を求めること
を特徴とする請求の範囲第 2 6項記載の映像音声処理装置。
3 3 . 上記解析手段は、 上記類似チヱ一ンを用いて、 上記ビデオ信 号の局所的ビデオ構造として、 映像及びノ又は音声セグメントの意 味に基づく部分集合であるシーンを検出して出力すること
を特徴とする請求の範囲第 2 1項記載の映像音声処理装置。
3 4 . 上記解析手段は、 上記類似チェーンを用いて、 上記ビデオ信 号の大局的ビデオ構造として、 互いに類似する映像及び/又は音声 セグメントが反復的に発生する構造パターンを検出して出力するこ と
を特徴とする請求の範囲第 2 1項記載の映像音声処理装置。
3 5 . 上記解析手段は、 上記構造パターンとして、 ニュース放送に おけるニュース項目を検出して出力すること
を特徴とする請求の範囲第 3 4項記載の映像音声処理装置。
3 6 . 上記解析手段は、 上記構造パターンとして、 プレイが反復的 に発生するスポーツ放送におけるビデオ構造を検出して出力するこ と
を特徴とする請求の範囲第 3 4項記載の映像音声処理装置。
3 7 . 上記解析手段は、 上記類似チェーンを用いて、 映像及び Z又 は音声セグメン 卜の意味に基づく部分集合であるシーンのうち、 関 連するシーンをまとめたトピック構造を検出して出力すること を特徴とする請求の範囲第 2 1項記載の映像音声処理装置。
PCT/JP2000/000422 1999-01-29 2000-01-27 Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux WO2000045603A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US09/647,303 US6744922B1 (en) 1999-01-29 2000-01-27 Signal processing method and video/voice processing device
EP00901938A EP1067800A4 (en) 1999-01-29 2000-01-27 METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2306999 1999-01-29
JP11/23069 1999-01-29

Publications (1)

Publication Number Publication Date
WO2000045603A1 true WO2000045603A1 (fr) 2000-08-03

Family

ID=12100124

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/000422 WO2000045603A1 (fr) 1999-01-29 2000-01-27 Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux

Country Status (3)

Country Link
US (1) US6744922B1 (ja)
EP (1) EP1067800A4 (ja)
WO (1) WO2000045603A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100296967B1 (ko) * 1999-01-30 2001-09-26 구자홍 멀티미디어 스트림의 다단계 요약 세그먼트 정보 스킴 구성 방법 및 구성된 다단계 요약 세그먼트 정보 스킴으로 부터 요약 스트림 발생 방법과 이러한 방법에 의해 제공되는 다단계 요약 스트림의 브라우징/녹화/편집 장치
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
DE10122597A1 (de) * 2001-05-10 2002-11-14 Philips Corp Intellectual Pty Anzeige weiterführender Informationen zu in einem Multimediagerät vorkommenden Informationselementen
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
US7349477B2 (en) * 2002-07-10 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Audio-assisted video segmentation and summarization
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US8046814B1 (en) * 2003-10-22 2011-10-25 The Weather Channel, Inc. Systems and methods for formulating and delivering video having perishable information
EP1557837A1 (en) * 2004-01-26 2005-07-27 Sony International (Europe) GmbH Redundancy elimination in a content-adaptive video preview system
GB0406504D0 (en) * 2004-03-23 2004-04-28 British Telecomm Method and system for detecting audio and video scene changes
JP4215681B2 (ja) * 2004-05-26 2009-01-28 株式会社東芝 動画像処理装置及びその方法
US7650031B2 (en) * 2004-11-23 2010-01-19 Microsoft Corporation Method and system for detecting black frames in a sequence of frames
KR100713517B1 (ko) * 2004-11-26 2007-05-02 삼성전자주식회사 메타 데이터를 이용한 녹화가 가능한 pvr과 그 녹화제어 방법
US7526725B2 (en) * 2005-04-08 2009-04-28 Mitsubishi Electric Research Laboratories, Inc. Context aware video conversion method and playback system
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
JP5076892B2 (ja) * 2005-06-27 2012-11-21 パナソニック株式会社 同一シーン検出装置およびプログラムを格納した記憶媒体
US8233708B2 (en) * 2005-08-17 2012-07-31 Panasonic Corporation Video scene classification device and video scene classification method
US7779004B1 (en) 2006-02-22 2010-08-17 Qurio Holdings, Inc. Methods, systems, and products for characterizing target systems
KR20080114786A (ko) 2006-03-03 2008-12-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 다수의 이미지들 요약의 자동 생성 방법 및 장치
US7596549B1 (en) 2006-04-03 2009-09-29 Qurio Holdings, Inc. Methods, systems, and products for analyzing annotations for related content
US8005841B1 (en) * 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
FR2909506A1 (fr) * 2006-12-01 2008-06-06 France Telecom Structuration d'un flux de donnees numeriques
US7840903B1 (en) 2007-02-26 2010-11-23 Qurio Holdings, Inc. Group content representations
US8200010B1 (en) * 2007-09-20 2012-06-12 Google Inc. Image segmentation by clustering web images
US8428360B2 (en) * 2007-11-01 2013-04-23 International Business Machines Corporation System and method for real-time new event detection on video streams
US20110080424A1 (en) * 2008-06-24 2011-04-07 Koninklijke Philips Electronics N.V. Image processing
US8879004B2 (en) * 2008-06-26 2014-11-04 Nec Corporation High-quality content generation system, method therefor, and program
US8150169B2 (en) * 2008-09-16 2012-04-03 Viewdle Inc. System and method for object clustering and identification in video
WO2010055242A1 (fr) * 2008-11-13 2010-05-20 France Telecom Procede de decoupage de contenu multimedia, dispositif et programme d'ordinateur correspondant
WO2011001817A1 (ja) * 2009-07-01 2011-01-06 日本電気株式会社 代表特徴抽出システムおよび方法
CN102056026B (zh) * 2009-11-06 2013-04-03 中国移动通信集团设计院有限公司 音视频同步检测方法及其系统、语音检测方法及其系统
JP5092000B2 (ja) * 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
JP5752585B2 (ja) * 2011-12-16 2015-07-22 株式会社東芝 映像処理装置、方法及びプログラム
US9734408B2 (en) * 2013-07-18 2017-08-15 Longsand Limited Identifying stories in media content
WO2015104780A1 (ja) * 2014-01-07 2015-07-16 パナソニックIpマネジメント株式会社 映像撮像装置
US9473803B2 (en) * 2014-08-08 2016-10-18 TCL Research America Inc. Personalized channel recommendation method and system
US9436876B1 (en) * 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
US20180101540A1 (en) * 2016-10-10 2018-04-12 Facebook, Inc. Diversifying Media Search Results on Online Social Networks
CN111385670A (zh) 2018-12-27 2020-07-07 深圳Tcl新技术有限公司 目标角色视频片段播放方法、系统、装置及存储介质
CN113438500B (zh) 2020-03-23 2023-03-24 阿里巴巴集团控股有限公司 视频处理方法、装置、电子设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259976A (ja) * 1988-08-26 1990-02-28 Matsushita Electric Works Ltd ブロック統合処理方式
JPH07193748A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 動画像処理方法および装置
EP0711078A2 (en) * 1994-11-04 1996-05-08 Matsushita Electric Industrial Co., Ltd. Picture coding apparatus and decoding apparatus
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
JPH08181995A (ja) 1994-12-21 1996-07-12 Matsushita Electric Ind Co Ltd 動画像符号化装置および動画像復号化装置
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US6278446B1 (en) * 1998-02-23 2001-08-21 Siemens Corporate Research, Inc. System for interactive organization and browsing of video

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259976A (ja) * 1988-08-26 1990-02-28 Matsushita Electric Works Ltd ブロック統合処理方式
JPH07193748A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 動画像処理方法および装置
EP0711078A2 (en) * 1994-11-04 1996-05-08 Matsushita Electric Industrial Co., Ltd. Picture coding apparatus and decoding apparatus
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1067800A4 *

Also Published As

Publication number Publication date
EP1067800A4 (en) 2005-07-27
US6744922B1 (en) 2004-06-01
EP1067800A1 (en) 2001-01-10

Similar Documents

Publication Publication Date Title
WO2000045603A1 (fr) Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux
WO2000045604A1 (en) Signal processing method and video/voice processing device
Hanjalic Adaptive extraction of highlights from a sport video based on excitement modeling
JP4683253B2 (ja) Av信号処理装置および方法、プログラム、並びに記録媒体
US8879862B2 (en) Method and apparatus for automatically summarizing video
Han et al. An integrated baseball digest system using maximum entropy method
Kijak et al. Audiovisual integration for tennis broadcast structuring
US20070266322A1 (en) Video browsing user interface
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
KR20060008897A (ko) 콘텐트 분석을 사용하여 뮤직 비디오를 요약하기 위한 방법및 장치
CN1938714A (zh) 用于对视频序列的场景进行语义分段的方法和系统
JP2000285243A (ja) 信号処理方法及び映像音声処理装置
JPWO2006016590A1 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
Bost A storytelling machine?: automatic video summarization: the case of TV series
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
US20140308023A1 (en) System and method for video summarization and navigation based on statistical models
Boukadida et al. A novel modeling for video summarization using constraint satisfaction programming
Chenot et al. A large-scale audio and video fingerprints-generated database of tv repeated contents
Barbieri et al. Video summarization: methods and landscape
Benini et al. Statistical skimming of feature films
Liu et al. Brief and high-interest video summary generation: evaluating the AT&T labs rushes summarizations
JP2010081531A (ja) 映像処理装置及びその方法
JP2007513398A (ja) プログラムのハイレベル構造を特定する方法及び装置
Bost A storytelling machine?
Lee et al. An application for interactive video abstraction

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09647303

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2000901938

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2000901938

Country of ref document: EP