WO2012020667A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
WO2012020667A1
WO2012020667A1 PCT/JP2011/067691 JP2011067691W WO2012020667A1 WO 2012020667 A1 WO2012020667 A1 WO 2012020667A1 JP 2011067691 W JP2011067691 W JP 2011067691W WO 2012020667 A1 WO2012020667 A1 WO 2012020667A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
annotation
feature amount
content
topic
Prior art date
Application number
PCT/JP2011/067691
Other languages
English (en)
French (fr)
Inventor
洋貴 鈴木
伊藤 真人
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US13/814,170 priority Critical patent/US9280709B2/en
Priority to CN201180038474XA priority patent/CN103069414A/zh
Priority to EP11816333.6A priority patent/EP2605152A1/en
Publication of WO2012020667A1 publication Critical patent/WO2012020667A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a program, and in particular, for example, information processing that makes it easy to add an annotation to content and provide an application using the annotation.
  • the present invention relates to an apparatus, an information processing method, and a program.
  • the present invention has been made in view of such circumstances, and makes it possible to easily add annotations to content and provide an application using the annotations.
  • the information processing apparatus or the program according to one aspect of the present invention extracts an image feature amount of each frame of the learning content image, and each word appears in the explanatory text explaining the content of the learning content image.
  • feature amount extraction means for extracting word frequency information relating to the frequency to be performed as a text feature amount of the explanatory text, and an annotation sequence for annotation that is a multi-stream including the image feature amount and the text feature amount
  • An information processing apparatus provided with model learning means for learning an annotation model which is a multi-stream HMM (Hidden Markov Model), or a program for causing a computer to function as an information processing device.
  • HMM Hidden Markov Model
  • the information processing apparatus extracts the image feature amount of each frame of the learning content image, and each word is included in the explanatory text explaining the content of the learning content image. Extracting word frequency information regarding the frequency of appearance as a text feature amount of the explanatory text, and using an annotation sequence for annotation that is a multi-stream including the image feature amount and the text feature amount, a multi-stream HMM
  • the image feature amount of each frame of the learning content image is extracted, and the frequency at which each word appears in the explanatory text describing the content of the learning content image. Is extracted as a text feature amount of the explanatory text, and an annotation sequence for annotation that is a multi-stream including the image feature amount and the text feature amount is used to generate a multi-stream HMM (Hidden Markov Model) is learned.
  • HMM Hidden Markov Model
  • the information processing apparatus may be an independent apparatus or an internal block constituting one apparatus.
  • the program can be provided by being transmitted through a transmission medium or by being recorded on a recording medium.
  • FIG. 3 is a block diagram illustrating a configuration example of a learning device 12.
  • FIG. 3 is a block diagram illustrating a first configuration example of a feature amount extraction unit 21.
  • FIG. It is a figure which shows the example of subtitle CSV data and intermediate data. It is a figure explaining the method of converting intermediate data into frequency data. It is a figure which shows the example of a text feature-value. It is a flowchart explaining the learning process in which the learning apparatus 12 learns an annotation model.
  • 3 is a block diagram illustrating a configuration example of an annotation assigning device 14.
  • FIG. 3 is a block diagram illustrating a configuration example of an annotation assigning device 14.
  • FIG. 3 is a block diagram illustrating a configuration example of a frame search device 15.
  • FIG. It is a flowchart explaining the frame search process in which the frame search apparatus 15 searches a keyword frame from object content, and produces
  • 3 is a block diagram illustrating a configuration example of a display control device 16.
  • FIG. 1 is a flowchart explaining the frame search process in which the frame search apparatus 15 searches a keyword frame from object content, and produces
  • FIG. 5 is a block diagram illustrating a second configuration example of a feature amount extraction unit 21.
  • FIG. 12 is a block diagram illustrating a third configuration example of the feature quantity extraction unit 21.
  • FIG. 10 is a flowchart for explaining topic list display control processing by the display control device 16; It is a figure which shows the example of the display format of the annotation using a topic list. It is a figure which shows the example of the display format of the annotation using a model map.
  • FIG. 11 is a block diagram illustrating a fourth configuration example of the feature quantity extraction unit 21. It is a block diagram which shows the structural example of the feature-value extraction part 41 of the annotation provision apparatus. It is a block diagram which shows the structural example of other one Embodiment of the recorder to which the information processing apparatus of this invention is applied. It is a figure explaining the outline
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a recorder to which an information processing apparatus of the present invention is applied.
  • the recorder in FIG. 1 is, for example, an HD (Hard Disk) recorder, and various types of content such as a television broadcast program, content provided via a network such as the Internet, content captured by a video camera, and the like. It can be recorded (recorded) (stored).
  • HD Hard Disk
  • the recorder has a content storage unit 11, a learning device 12, an annotation model storage unit 13, an annotation assignment device 14, a frame search device 15, and a display control device 16.
  • the content storage unit 11, the learning device 12, the annotation model storage unit 13, the annotation assignment device 14, the frame search device 15, and the display control device 16 may be configured as a single device (housing). It can also be divided into a plurality of devices.
  • the content storage unit 11, the learning device 12, and the annotation model storage unit 13 are configured as one device such as a server on the home network or a server on the Internet, and the annotation adding device 14 and the frame search device 15 are configured.
  • Each of the display control devices 16 can be configured as another device such as a client.
  • the content storage unit 11 stores (records) content including images, such as a television broadcast program.
  • the storage of the content in the content storage unit 11 is the recording of the content, and the recorded content (the content stored in the content storage unit 11) is reproduced, for example, according to a user operation.
  • the content storage unit 11 can also store content shot with a video camera or the like, content downloaded from a web server, and the like.
  • the learning device 12 uses learning content used for learning an annotation model, which will be described later, from among the content stored in the content storage unit 11, the content from which the description text describing the content image can be acquired.
  • the learning device 12 extracts the image feature amount of each frame of the learning content image, and word frequency information regarding the frequency of occurrence of each word in the explanatory text explaining the content of the learning content image. Extracted as a text feature amount of the explanatory text.
  • the learning device 12 uses the multi-stream including the image feature amount and the text feature amount extracted from the learning content as an annotation annotation series, and an annotation model that is a multi-stream HMM (Hidden Markov Model). And the annotation model after the learning is supplied to the annotation model storage unit 13.
  • HMM Hidden Markov Model
  • the annotation model storage unit 13 stores the annotation model supplied from the learning device 12.
  • the annotation assigning device 14 uses the annotation model stored in the annotation model storage unit 13 to give an annotation to the target content to be annotated out of the content stored in the content storage unit 11.
  • the frame search device 15 uses the annotation model stored in the annotation model storage unit 13 to search for a keyword frame that is a frame whose content matches a predetermined keyword from the content stored in the content storage unit 11. A keyword frame is searched from target content.
  • the display control device 16 uses the annotation model stored in the annotation model storage unit 13 and uses the annotation model stored in the content storage unit 11 to add annotations to the target content frame to be annotated. Display control to display.
  • the content data stored in the content storage unit 11 includes image, audio, and necessary subtitle text data (stream).
  • the learning content may be any content that includes at least an image and can be obtained by some method such as caption text and other explanatory text, such as an annotation adding device 14, a frame search device 15, and
  • the target content to be processed by the display control device 16 may be content that includes at least an image.
  • the learning content and the target content do not include images, but may include content including audio.
  • FIG. 2 is a block diagram illustrating a configuration example of the learning device 12 of FIG.
  • the learning device 12 includes a feature amount extraction unit 21 and a model learning unit 22.
  • the feature amount extraction unit 21 selects content used for learning of the annotation model as content for learning from the content stored in the content storage unit 11, and acquires (reads) from the content storage unit 11.
  • the feature amount extraction unit 21 can acquire, from the content stored in the content storage unit 11, for example, explanatory text that explains the content of the content image, such as content including subtitle text.
  • the content is selected as learning content.
  • Metadata in addition to the subtitle text included in the content, metadata such as the broadcast start time, broadcast end time, performer, and summary of the contents of each corner of the broadcast program are displayed after the broadcast program ends. It is possible to adopt metadata provided by a service provider of a paid service to be distributed (hereinafter also referred to as a program metadata service), text describing the content input by a user operating a keyboard, or the like.
  • a service provider of a paid service hereinafter also referred to as a program metadata service
  • text describing the content input by a user operating a keyboard or the like.
  • the feature quantity extraction unit 21 selects, for example, one or more contents belonging to a predetermined category as learning contents used for learning one annotation model.
  • the content belonging to the predetermined category is hidden in the content such as, for example, a program of the same genre, a continuous program, a program broadcasted every week or every other day (a so-called series program having the same title), This means content with a common content structure.
  • a rough classification such as a sports program, a news program, a music program, etc. can be adopted, but for example, a soccer game program, a baseball game program, etc.
  • a fine classification is desirable.
  • a soccer game program can be classified into contents belonging to different categories for each different channel (broadcast station).
  • the content categories stored in the content storage unit 11 include, for example, metadata such as program titles and genres transmitted together with programs by television broadcasting, information on programs provided by sites on the Internet, and the like. Can be recognized from.
  • the learning device 12 learns the annotation model for each category. Also in the annotation assigning device 14, the frame search device 15, and the display control device 16 in FIG. 1, processing of the target content is performed using an annotation model of a category that matches the category of the target content. However, in the following, description of categories will be omitted as appropriate.
  • the feature amount extraction unit 21 extracts an image feature amount that is a feature amount of each frame of an image included in the learning content from the content storage unit 11 and supplies the image feature amount to the model learning unit 22.
  • the feature amount extraction unit 21 divides the frame of interest into a plurality of sub-regions, which are a plurality of small regions, by sequentially using the frames of the learning content as the frame of interest.
  • the feature amount extraction unit 21 extracts, for example, the sub region feature amount of each sub region, and uses the vector having the sub region feature amount of the target frame as a component as the image feature amount of the target frame. Supply.
  • the global feature amount of the sub-region is obtained using the pixel value of the sub-region (for example, RGB component, YUV component, etc.).
  • the global feature amount of the sub-region is an additive calculation using only the pixel value without using the information on the position of the pixel constituting the sub-region, for example, a feature such as a histogram. Say quantity.
  • GIST a feature quantity called GIST
  • A. Torralba, K. Murphy, W. Freeman, M. Rubin Context-based vision system for place and object recognition
  • the global feature value may be a feature value that is robust (absorbs change) (robust) with respect to changes in appearance such as local position, brightness, and viewpoint.
  • Such feature amounts include, for example, HLCA (Local Higher Order Correlation), LBP (Local Binary Patterns), and a color histogram.
  • HLCA Details of HLCA are described in, for example, N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Works on Computer Vision, pp.431-435, 1988. .
  • LBP for example, Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24987 (Pietikainen and Maenpaa's "a” is exactly the letter with "" added to the top of "a”).
  • Image features that are vectors whose components are sub-region features as described above are robust against local changes (changes that occur within sub-regions), but the pattern arrangement of the entire frame For changes, the feature quantity is discriminative (a property that distinguishes the difference sharply).
  • the similarity of scenes (contents) between frames can be determined appropriately.
  • the scene of “Beach” should have “Sky” above the frame, “Sea” in the center, and “Sandy Beach” at the bottom of the screen. "Where the clouds are” has nothing to do with whether or not the scene is a "beach” scene.
  • An image feature quantity that is a vector having a sub-region feature quantity as a component is suitable for determining the similarity of scenes (classifying scenes) from such a viewpoint, and is hereinafter also referred to as a scene feature quantity as appropriate.
  • the feature amount extraction unit 21 extracts the image feature amount (scene feature amount) of each frame of the image included in the learning content from the content storage unit 11, and each word appears in the explanatory text of the learning content. Word frequency information related to the frequency is extracted as a text feature amount of the explanatory text and supplied to the model learning unit 22.
  • the feature amount extraction unit 21 adopts the subtitle text as the explanatory text.
  • the feature amount extraction unit 21 receives a description text from the outside, that is, for example, when program metadata is provided from a service provider of a program metadata service, or when the user uses a keyboard or the like. By operating, when text describing the learning content is input, metadata from the service provider and text from the user can be adopted as the explanatory text.
  • the feature amount extraction unit 21 can perform speech recognition of the speech included in the learning content, and adopt the text that is the result of the speech recognition as the explanatory text.
  • subtitle text included in the content is adopted as the explanation text.
  • the model learning unit 22 uses the multi-stream including the image feature amount of the learning content and the text feature amount supplied from the feature amount extraction unit 21 as an annotation annotation series for adding annotation to the content.
  • the annotation model which is a multi-stream HMM, is learned using the annotation sequence.
  • the model learning unit 22 supplies the learned annotation model to the annotation model storage unit 13 for storage.
  • HMM is first, initial probability [pi i being in state s i, state transition probability a ij of the state transition from the state s i to the state s j, and, from the state s i, a predetermined observed value o is observed It is defined by the output probability distribution b i (o) to be (output).
  • the output probability distribution b i (o) when the observed value o is a discrete value (multinomial distribution), the discrete value (distribution) of the probability is used, but when the observed value o is a continuous value
  • a probability distribution function is used for.
  • the probability distribution function for example, a Gaussian distribution defined by an average value (average vector) and a variance (covariance matrix) can be employed.
  • HMM learning can be performed by, for example, the Baum-Welch re-estimation method, which is a parameter estimation method based on the EM (Expextation Maximization) algorithm.
  • a sparse structure is not a dense state transition such as an ergodic HMM that can make a state transition from a certain state to an arbitrary state, but a state that can make a state transition from a certain state is very It is a limited structure (a structure in which state transition is sparse).
  • the model learning unit 22 uses the annotation stream that is a multi-stream including the image feature amount and the text feature amount of the learning content supplied from the feature amount extraction unit 21, and uses the multi-stream HMM.
  • a certain annotation model is learned by, for example, the Baum-Welch re-estimation method.
  • multi-streams that are multiple sequences (streams) of observation values are observed.
  • a weight (hereinafter referred to as a sequence) is a degree to which the component stream is affected to the multi-stream HMM with respect to individual streams (streams) (hereinafter also referred to as a component stream) constituting the multi-stream. Can also be set.
  • sequence weights As for sequence weights, prior knowledge is given so that learning results of multi-stream HMMs do not fall into local solutions by setting large sequence weights for constituent sequences that are important during multi-stream HMM learning. Can do.
  • a multi-stream HMM differs from an HMM that uses a single sequence that is not a multi-stream, as shown in Equation (1), in which output probability distribution b [m] of each component sequence o [m] constituting the multi-stream j (o [m] ), considering the sequence weight W m set in advance, the output probability distribution b j (o [1] , o [2] , ..., o [M] ).
  • Equation (1) M represents the number (number of streams) of component sequences o [m] constituting the multi-stream, and the sequence weight W m is M component sequences constituting the multi-stream. Represents the sequence weight of the m-th component sequence o [m] .
  • the annotation sequence which is a multi-stream used for learning in the model learning unit 22, is composed of two component elements, an image feature quantity sequence o [1] and a text feature quantity sequence o [2]. Is done.
  • 0.5 can be adopted as the sequence weights W 1 and W 2 , for example.
  • an image feature quantity that is the first component series o [1] a vector having a sub-region feature quantity as a component is adopted and a text that is the second component series o [2].
  • the frequency of each word (frequency itself or a value obtained by normalizing the frequency) is adopted as the feature amount.
  • the image feature quantity that is the first component series o [1] is a vector of continuous values
  • an output probability distribution (observation model) b [1] j (o [1] ) for example, a mean value (mean vector) is ⁇ [1] j, variance (covariance matrix) is ⁇ 2 [1] j Gaussian N ( ⁇ [1] j, ⁇ 2 [1] j) is used.
  • the text feature quantity which is the second component element series o [2] is a multinomial distribution of the frequency of each word (frequency itself or a value obtained by normalizing the frequency), and the output probability distribution b [2] A multinomial distribution is used as j (o [2] ).
  • the E (Expextation) step Using the initial probability ⁇ i , the state transition probability a ij , and the output probability distribution b j (o [1] , o [2] ) obtained according to Equation (1), At time t (t-th frame of learning content (t-th frame from the beginning)), the state probability ⁇ (h) t, j in state j is the same as in the case of HMM learning using a single sequence. Desired.
  • the output probability distribution (observation model) b [1] j (o [1] ) of the image feature value using the state probability ⁇ (h) t, j obtained in the E step As in the case of HMM learning using a single sequence, the average value ⁇ [1] j and variance ⁇ 2 [1] j of the Gaussian distribution as is obtained according to the equation (2).
  • H represents the number of learning contents (the number of contents)
  • o (h) [1] (t) represents the h-th learning content among the H learning contents. This represents the image feature amount of the t-th frame of content.
  • the multinomial distribution as j is obtained according to equation (3), as in the case of HMM learning having the multinomial distribution as an observation model (output probability distribution).
  • o (h) [2] (t) is the frequency of each word that is the text feature amount of the t-th frame of the h-th learning content among the H learning content.
  • B [2] j represents a multinomial distribution which is an output probability distribution in which each word is observed in the state s j .
  • the multinomial distribution represents the distribution of K symbols, and one symbol of K symbols is observed at each time t
  • the multinomial distribution o (h) [2] (t) Is a multinomial distribution in which the distribution (probability) of one symbol observed at time t is 1 and the distribution of all remaining symbols is 0.
  • FIG. 3 is a block diagram showing a first configuration example of the feature quantity extraction unit 21 of FIG.
  • the feature amount extraction unit 21 includes an image acquisition unit 31, an image feature amount extraction unit 32, an explanatory text acquisition unit 33, a text feature amount extraction unit 34, and a synchronization unit 35.
  • the image acquisition unit 31 selects and acquires, from the contents stored in the content storage unit 11, the content from which the explanatory text can be acquired as the learning content.
  • the image acquisition unit 31 acquires the image from the learning content by demultiplexing (separating) the image, and supplies the acquired image feature amount to the image feature amount extraction unit 32.
  • the image feature amount extraction unit 32 selects each frame of the image from the image acquisition unit 31 as a target frame in time order, and is an image suitable for determining similarity of frame contents (scenes) from the target frame.
  • a scene feature amount, which is a feature amount, is extracted and supplied to the synchronization unit 35.
  • the explanatory text acquisition unit 33 acquires, for example, the same learning content that the image acquisition unit 31 acquires from the content storage unit 11 and demultiplexes the subtitle text from the learning content. And it supplies to the text feature-value extraction part 34 as an explanatory text.
  • the explanation text acquisition unit 33 acquires program metadata from the program metadata service service provider as described above, or the user can use a keyboard or the like. It is possible to acquire, as explanatory text, text input as a result of the operation, text as a speech recognition result obtained by performing speech recognition of speech included in the learning content, and the like.
  • the text feature quantity extraction unit 34 inserts a window having a predetermined time length, such as several seconds or several tens of seconds, into the window while shifting it at regular intervals with respect to the caption text as the explanation text from the explanation text acquisition unit 33. Words included in the displayed caption text are extracted as one document.
  • the text feature quantity extraction unit 34 extracts a multinomial distribution representing the frequency of occurrence of each word in the document from the document as a text feature quantity, and supplies the text feature quantity to the synchronization unit 35.
  • the multinomial distribution representing the frequency of occurrence of each word in the document is word frequency information, that is, information on the frequency of occurrence of each word in the explanatory text.
  • the synchronization unit 35 synchronizes and outputs the scene feature amount supplied from the image feature amount extraction unit 32 and the text feature amount supplied from the text feature amount extraction unit 34 in units of frames.
  • the scene feature amount since the scene feature amount is obtained for each frame, the scene feature amount exists for each frame.
  • the text feature amount is obtained for each document, that is, for each window shifted at a constant interval, and therefore does not necessarily exist for each frame. .
  • the synchronization unit 35 extracts the scene feature amount extracted from the target frame of interest, the text feature amount (extracted from the document) obtained from the window at the closest position in time to the target frame, and the subsequent frames. So that the set of the text feature obtained from the window at the position closest to the target frame in time is the set of the scene feature and the text feature of the target frame.
  • the scene feature quantity supplied from the image feature quantity extraction unit 32 and the text feature quantity supplied from the text feature quantity extraction unit 34 are synchronized and output to the model learning unit 22 (FIG. 2).
  • 4 to 6 are diagrams for explaining extraction of text feature amounts by the text feature amount extraction unit 34 of FIG.
  • FIG. 4 is a diagram illustrating examples of subtitle CSV data and intermediate data.
  • the explanatory text acquisition unit 33 acquires subtitle data (subtitle stream) including the subtitle text as the explanatory text from the learning content, and supplies the subtitle data to the text feature amount extraction unit 34.
  • the text feature amount extraction unit 34 (FIG. 3) extracts the subtitle display start time and the subtitle text as the explanatory text from the subtitle data.
  • the subtitle CSV data in FIG. 4 is data obtained by decoding the subtitle data included in the content into a CSV (comma delimited) expression.
  • the data in the first column (first column from the left) of subtitle CSV data is PTS (Presentation Time Stamp) as the subtitle display start time
  • the fourth column data is subtitle text.
  • subtitle text of a line with subtitle CSV data is displayed from the display start time of that line to just before the display start time of the next line.
  • the text feature extraction unit 34 converts the display start time expressed by the PTS in the first column of the subtitle CSV data into, for example, a time expressed in milliseconds with reference to the top of the learning content.
  • the text feature extraction unit 34 morphologically analyzes the subtitle text in the fourth column of the subtitle CSV data, thereby segmenting the subtitle text into words (morphemes) and obtaining the part of speech of each word.
  • the text feature quantity extraction unit 34 extracts words useful for annotation from words segmented from the caption text.
  • the text feature quantity extraction unit 34 extracts words of specific parts of speech such as nouns, verbs, adjectives, and adverbs as useful word candidates from words segmented from the caption text.
  • words of specific parts of speech such as nouns, verbs, adjectives, and adverbs
  • a single letter of hiragana or a word composed of only hiragana is deleted from useful word candidates.
  • the text feature quantity extraction unit 34 determines the remaining useful word candidates as useful words, and sets the set of the useful words and the display start time expressed in milliseconds as the text feature quantity. Intermediate intermediate data used for extraction.
  • the part of speech is extracted as a noun and verb word as a useful word candidate, and from the useful word candidate, By deleting a single hiragana word, a word composed of only hiragana, and a number, a result that a relatively appropriate word is given as an annotation is obtained.
  • FIG. 5 is a diagram for explaining a method of converting intermediate data into frequency data.
  • the text feature amount extraction unit 34 When the text feature amount extraction unit 34 obtains intermediate data from the learning content, the text feature amount extraction unit 34 converts the intermediate data into frequency data.
  • the text feature quantity extraction unit 34 shifts, for example, a 30-second window (window function) at 30-second intervals along the time axis of the learning content. Then, the text feature quantity extraction unit 34 selects one word included in the subtitle text displayed in the window (within the time corresponding to the window) from the words included in the intermediate data of the learning content.
  • a typical document hereinafter also referred to as a pseudo document.
  • the text feature amount extraction unit 34 obtains a pseudo document for each of the plurality of contents.
  • time length of the window used to extract the pseudo document in the text feature amount extraction unit 34 is not limited to 30 seconds.
  • the windows can be shifted so that they partially overlap. For example, by shifting a window with a time length of 30 seconds at intervals of 15 seconds, it is possible to realize a window that shifts while overlapping every 15 seconds.
  • the text feature amount extraction unit 34 When the text feature amount extraction unit 34 obtains pseudo-documents for all the learning contents, the text feature amount extraction unit 34 enumerates words from all the pseudo-documents so as not to overlap, and assigns each word and a unique word ID (Identification) to the word. A word dictionary registered in association with each other is generated.
  • the word dictionary generated from the pseudo document can be generated even from the intermediate data of the learning content.
  • the text feature amount extraction unit 34 refers to the word dictionary, obtains the frequency of words appearing in the pseudo document for each pseudo document, and uses frequency data associated with the word ID of the word. Generate.
  • the word dictionary is supplied to the annotation model storage unit 13 and stored together with the annotation model obtained by learning using the learning content used to generate the word dictionary.
  • FIG. 6 is a diagram illustrating an example of the text feature amount.
  • the text feature amount extraction unit 34 converts the frequency data of the pseudo document into the frequency of each word registered in the word dictionary.
  • the quantity extracting unit 34 converts the frequency data of the pseudo document into a registered word frequency vector.
  • BoW BoW-of-Words
  • the text feature quantity extraction unit 34 divides each component of the registered word frequency vector obtained by converting the frequency data of the pseudo document by the sum of the frequencies of the components, and synchronizes the resulting vector as a text feature quantity. To the unit 35.
  • the text feature amount of the pseudo document as described above has a multinomial distribution representing the frequency (probability) of occurrence of each word registered in the word dictionary in the pseudo document.
  • FIG. 7 is a flowchart illustrating a learning process in which the learning device 12 in FIG. 2 learns an annotation model.
  • step S11 the feature amount extraction unit 21 extracts the content of the content image such as content including subtitle text from the content stored in the content storage unit 11.
  • the content from which the explanatory text to be explained can be acquired is selected as the learning content, and the process proceeds to step S12.
  • step S ⁇ b> 12 the feature amount extraction unit 12 extracts a scene feature amount as an image feature amount from each frame of an image included in the learning content from the content storage unit 11, and uses the learning feature from the content storage unit 11.
  • Word frequency information relating to the frequency of occurrence of each word is extracted as a text feature amount from caption text as explanatory text included in the content.
  • the feature quantity extraction unit 12 synchronizes the scene feature quantity and the text feature quantity in units of frames and supplies them to the model learning unit 22, and the process proceeds from step S 12 to step S 13.
  • step S ⁇ b> 13 the model learning unit 22 uses an annotation sequence that is a multi-stream including an image feature amount and text feature amount of the learning content from the feature amount extraction unit 21, and is an annotation model that is a multi-stream HMM. To learn.
  • model learning unit 22 supplies the learned annotation model to the annotation model storage unit 13 to be stored, and the learning process ends.
  • the content structure for example, a program structure, a structure created by camera work, etc.
  • the content structure hidden in the learning content is acquired in a self-organizing manner.
  • each state of the multi-stream HMM as an annotation model obtained by the learning process corresponds to an element of the content structure acquired by learning, and the state transition is a time between the elements of the content structure.
  • a typical transition scene transition
  • the state of the annotation model is close to the spatial distance in the feature amount space (the space defined by the respective axes of the scene feature amount and the text feature amount extracted by the feature amount extraction unit 21 (FIG. 2)).
  • a group of frames having similar temporal relationships that is, “similar scenes” are collectively expressed.
  • the feature amount space is divided into states.
  • the basic flow of the program is roughly the flow of quiz questions, hint presentation, performer answers, and correct answer announcements.
  • the quiz program progresses by repeating the flow.
  • the basic flow of the program described above corresponds to the structure of the content, and each of the quiz questions, hints, answers by the performers, and correct announcements that constitute the flow (structure) is an element of the structure of the content. It corresponds to.
  • the progress from the quiz question to the presentation of the hint corresponds to the temporal transition between the elements of the content structure.
  • Each state of the multi-stream HMM as an annotation model has an observation model (output probability distribution) in which each of the scene feature quantity (modal) and the text feature quantity (modal) is observed in that state. .
  • each state of the annotation model includes an output probability distribution in which scene feature values of each value are observed (output), and an output probability distribution that is a multinomial distribution representing the frequency (probability) in which each word in the word dictionary is observed.
  • An image from which a scene feature with a high probability of being observed in each state of the annotation model is extracted and a word with a high probability of being observed in that state are easily observed at the same time. It can be said that a word having a high value expresses the content of an image (scene) from which a scene feature amount having a high probability of being observed in that state is extracted.
  • a word having a high probability of being observed in each state of the annotation model can be used as an annotation of an image (frame) from which a scene feature amount having a high probability of being observed in that state is extracted.
  • FIG. 8 is a block diagram illustrating a configuration example of the annotation assignment apparatus 14 of FIG.
  • the annotation assigning device 14 includes a feature amount extraction unit 41, a maximum likelihood state sequence calculation unit 42, and a word selection unit 43.
  • the feature quantity extraction unit 41 selects target content to be annotated from the content stored in the content storage unit 11, and acquires (reads) from the content storage unit 11.
  • the target content is selected according to, for example, a user operation.
  • content that has not yet been selected as target content (content that has not been annotated) among the content stored in the content storage unit 11 can also be selected as target content.
  • the content to be selected as the target content from the content stored in the content storage unit 11 may be content that can acquire explanatory text, such as learning content, or may acquire explanatory text. Content that cannot be used.
  • the feature amount extraction unit 41 includes the feature amount extraction unit of the learning device 12. As in FIG. 21 (FIG. 2), a scene feature amount as an image feature amount for each frame and word frequency information as a text feature amount of caption text as an explanatory text are extracted from the target content.
  • the feature amount extraction unit 41 configures a multi-stream including a scene feature amount and a text feature amount for each frame as an annotation sequence, and supplies the annotation sequence to the maximum likelihood state sequence calculation unit 42.
  • the feature amount extraction unit 41 performs the same processing for each frame from the target content as in the feature amount extraction unit 21 (FIG. 2) of the learning device 12. A scene feature amount as an image feature amount is extracted.
  • the feature quantity extraction unit 41 uses, for example, dummy data (multinomial distribution having the same dimension as the text feature quantity) that is a multinomial distribution with a predetermined value such as 0 or 1 as a text feature quantity, and a scene for each frame.
  • dummy data multinomial distribution having the same dimension as the text feature quantity
  • a multi-stream including the feature quantity and the text feature quantity as dummy data is configured as an annotation series, and the annotation series is supplied to the maximum likelihood state series calculation unit 42.
  • the maximum likelihood state sequence calculation unit 42 is a maximum likelihood state sequence (annotation sequence is an annotation sequence) in which an annotation sequence from the feature amount extraction unit 41 is observed in the annotation model (multi-stream HMM) stored in the annotation model storage unit 13.
  • a series of annotation model states having the highest likelihood of being observed) is obtained in accordance with, for example, the Viterbi algorithm and supplied to the word selection unit 43.
  • the maximum likelihood state sequence indicates that it is likely that the t-th frame of the target content is observed in the t-th state of the maximum likelihood state sequence (the state of the annotation model).
  • obtaining the maximum likelihood state sequence in which a certain sequence (time-series data) is observed means that the sequence is recognized (pattern recognition) using the multi-stream HMM. Equivalent to.
  • the annotation series is composed of scene feature quantities and text feature quantities in frame units of the target content, it is a series of sample values in frame units of the target content.
  • the t-th frame of the target content is associated with the t-th state of the maximum likelihood state sequence, so the t-th frame of the target content is the t-th state of the maximum likelihood state sequence.
  • the maximum likelihood state sequence calculation unit 42 calculates the maximum likelihood state sequence according to the equation (1) in a multistream. Value that equally distributes the sequence weight W m of the output probability distribution b j (o [1] , o [2] ,..., O [M] ) of a certain annotation series to each component series o [m] That is, for example, 1 / M.
  • the sequence weight W 1 and Both W 2 are set to 0.5.
  • the maximum likelihood state sequence calculation unit 42 calculates the maximum likelihood state sequence according to the equation (1).
  • the sequence weight W m of the output probability distribution b j (o [1] , o [2] ,..., O [M] ) of a certain annotation sequence is set to 0 for the component sequence of the text feature quantity,
  • the other component element series is, for example, 1 / (M ⁇ 1).
  • the word selection unit 43 sequentially sets the frames of the target content as the attention frame, and the frequency (output probability) of the word observed in the state corresponding to the attention frame in the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 42.
  • the output probability distribution which is a multinomial distribution of, attention is given to words with a high frequency (words with a high probability of being observed), that is, words with the highest frequency or words with a frequency within the top R (> 1) rank. Select as an annotation (to be a word) to be added to the frame.
  • the annotation is selected for the attention frame in the word selection unit 43, the annotation is given to the attention frame.
  • the word selection unit 43 outputs the annotation added to each frame of the target content as annotation word information.
  • the annotation word information output by the word selection unit 43 is supplied to, for example, the content storage unit 11 and stored in association with the target content.
  • the annotation word information stored in the content storage unit 11 can be used, for example, to display the annotation given to the frame together with the frame of the target content when the target content is reproduced.
  • FIG. 9 is a flowchart for explaining an annotation assignment process in which the annotation assignment apparatus 14 in FIG. 8 assigns an annotation to the target content.
  • step S21 the feature amount extraction unit 41 selects target content to be annotated from the content stored in the content storage unit 11 and acquires it from the content storage unit 11. Proceed to S22.
  • step S22 the feature amount extraction unit 41 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S22 If it is determined in step S22 that the target content is content that can acquire the explanatory text, that is, for example, if the target content is content including subtitle text, the process proceeds to step S23.
  • the feature amount extraction unit 41 extracts, from the target content, a scene feature amount as an image feature amount for each frame and word frequency information as a text feature amount of subtitle text as explanatory text.
  • the feature amount extraction unit 41 configures a multi-stream including a scene feature amount and a text feature amount for each frame as an annotation sequence, and supplies the annotation sequence to the maximum likelihood state sequence calculation unit 42. The process proceeds from step S23 to step S25.
  • step S22 when it is determined in step S22 that the target content is content for which no description text can be acquired, that is, for example, when the target content is content that does not include subtitle text, the processing is performed in step S22. Proceeding to S24, the feature amount extraction unit 41 extracts a scene feature amount as an image feature amount for each frame from the target content.
  • the feature amount extraction unit 41 uses, for example, dummy data as a text feature amount, and configures a multistream including a scene feature amount for each frame and a text feature amount as dummy data as an annotation sequence.
  • the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 42, and the process proceeds from step S24 to step S25.
  • step S ⁇ b> 25 the maximum likelihood state sequence calculation unit 42 selects an annotation model (a category of the target content) that matches the category of the target content from the annotation models (multi-stream HMM) stored in the annotation model storage unit 13. Annotation model learned using the learning content of the matching category is acquired.
  • the maximum likelihood state sequence calculation unit 42 obtains the maximum likelihood state sequence in which the annotation series from the feature amount extraction unit 41 is observed in the annotation model acquired from the annotation model storage unit 13, and supplies the maximum likelihood state sequence to the word selection unit 43. Then, the process proceeds from step S25 to step S26.
  • step S ⁇ b> 26 the word selection unit 43 sequentially sets the frames of the target content as attention frames, and the frequency of words observed in the state corresponding to the attention frame in the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 42. Based on the multinomial distribution of, an annotation (to be a word) to be given to the frame of interest is selected.
  • the word selection unit 43 selects a word having a high frequency in the multinomial distribution of the word frequencies observed in the t-th state of the maximum likelihood state sequence. This is selected as an annotation to be added to the t frame, and thereby an annotation is assigned to the t th frame.
  • step S26 the process proceeds from step S26 to step S27, and the word selecting unit 43 adds the annotation added to each frame of the target content and the frame of the frame.
  • the number (t in the t-th frame) is associated and output as annotation word information, and the annotation assignment process ends.
  • the annotation assigning device 14 extracts the image feature amount of each frame of the image of the target content, configures the annotation sequence using the image feature amount, and observes the annotation sequence in the annotation model.
  • Annotation to the target content can be easily performed.
  • the annotation giving device 14 when the description text can be acquired for the target content (when the description text exists), the image feature amount of each frame of the image of the target content and the text feature of the description text If an explanatory text is not obtained for the target content (if no explanatory text exists), the text is extracted. Since the dummy data is used as the feature amount, and the annotation feature series including the image feature amount and the text feature amount that is the dummy data is formed, the target content (each frame of the target content) ) Can be annotated.
  • a word that appropriately expresses the content of the target content is observed in the annotation model even if it does not appear in the subtitle text of the target content. If the probability is high, the word is added to the target content as an annotation.
  • an annotation is given to target content that does not include subtitle text as explanatory text, even though there is no explanatory text.
  • FIG. 10 is a block diagram showing a configuration example of the frame search device 15 of FIG.
  • the frame search device 15 includes a feature amount extraction unit 51, a maximum likelihood state sequence calculation unit 52, a keyword match degree calculation unit 53, a keyword supply unit 54, and a frame selection unit 55.
  • the feature amount extraction unit 51 selects target content to be searched for a keyword frame that is a frame whose content matches a predetermined keyword from the content stored in the content storage unit 11, for example, the feature amount of FIG. The selection is performed in the same manner as the extraction unit 41, and is acquired (read) from the content storage unit 11.
  • the feature amount extraction unit 51 selects the target content in accordance with, for example, a user operation. In addition, the feature amount extraction unit 51 selects, for example, content that has not yet been selected as the target content among the content stored in the content storage unit 11 as the target content.
  • the content selected as the target content from the content stored in the content storage unit 11 may be content that can acquire explanatory text, such as learning content, or acquire explanatory text.
  • the content may not be possible.
  • the feature amount extraction unit 51 includes the feature amount extraction unit 41 in FIG. Similarly, a scene feature amount as an image feature amount for each frame and word frequency information as a text feature amount of caption text as an explanatory text are extracted from the target content.
  • the feature quantity extraction unit 51 configures a multi-stream including a scene feature quantity and a text feature quantity for each frame as an annotation series, and supplies the annotation series to the maximum likelihood state series calculation unit 52.
  • the feature amount extraction unit 51 uses the target content as the image feature amount for each frame, like the feature amount extraction unit 41 in FIG. A scene feature amount is extracted, dummy data is used as a text feature amount, and a multi-stream including a scene feature amount for each frame and a text feature amount as dummy data is configured as an annotation series.
  • the feature amount extraction unit 51 supplies the maximum likelihood state sequence calculation unit 52 with an annotation sequence composed of a scene feature amount for each frame and a text feature amount that is dummy data.
  • the maximum likelihood state sequence calculation unit 52 uses the annotation model (multi-stream HMM) stored in the annotation model storage unit 13 for annotation from the feature quantity extraction unit 51.
  • the maximum likelihood state sequence in which the sequence is observed is obtained and supplied to the keyword matching degree calculation unit 53.
  • the keyword match degree calculation unit 53 is supplied with the maximum likelihood state sequence for the target content from the maximum likelihood state sequence 52, and is also supplied with a predetermined word (group) as a keyword from the keyword supply unit 54.
  • the keyword coincidence calculation unit 53 uses the frames of the target content as sequential frames of interest, and the frequency of words observed in the state corresponding to the frame of interest in the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 52.
  • the probability (frequency) that the keyword from the keyword supply unit 54 is observed is calculated as the degree of keyword match that the content of the target frame matches the keyword.
  • the keyword supply unit 54 uses, for example, a search query (query) that requests a search including a keyword that is input by a user operating a keyboard or the like as a keyword for searching for a frame from the target content. This is supplied to the keyword match degree calculation unit 53.
  • a search query query
  • This is supplied to the keyword match degree calculation unit 53.
  • the frame selection unit 55 acquires the target content from the content storage unit 11, and selects a keyword frame that matches the keyword (search query) from the target content based on the keyword matching degree from the keyword matching degree selection unit 53. .
  • the frame selection unit 55 selects, as a keyword frame, a frame in which the keyword matching degree from the keyword matching degree selection unit 53 is higher than a predetermined threshold (hereinafter also referred to as a search threshold) from the target content.
  • a predetermined threshold hereinafter also referred to as a search threshold
  • the frame selection unit 55 outputs the chronological order of the keyword frames selected from the target content as a keyword digest that is a digest of the target content.
  • search threshold can be set in advance, for example, or can be set according to a user operation.
  • the keyword digest output by the frame selection unit 55 is reproduced in accordance with, for example, a user operation.
  • the user can view only the scene in which the keyword represents the content of the target content as a digest.
  • the reproduction of the keyword digest it is possible to reproduce the frames constituting the keyword digest in the order in which they are arranged (in chronological order), and also in the descending order of the degree of matching of the keywords.
  • FIG. 11 is a flowchart illustrating a frame search process in which the frame search device 15 in FIG. 10 searches for a keyword frame from the target content and generates a keyword digest.
  • the keyword supply unit 55 supplies, for example, a search query including a keyword to the keyword match degree calculation unit 53 in accordance with a user operation.
  • steps S31 to S35 the same processes as in steps S21 to S25 of FIG. 9 are performed.
  • step S31 the feature amount extraction unit 51 selects target content to be annotated from the content stored in the content storage unit 11, acquires it from the content storage unit 11, and performs processing. The process proceeds to step S32.
  • step S32 the feature amount extraction unit 51 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S32 When it is determined in step S32 that the target content is content that can acquire the explanatory text, the process proceeds to step S33, and the feature amount extraction unit 51 determines the scene as the image feature amount for each frame from the target content. A feature amount and word frequency information as a text feature amount of the explanatory text are extracted.
  • the feature amount extraction unit 51 configures a multi-stream including a scene feature amount and a text feature amount for each frame as an annotation sequence, and supplies the annotation sequence to the maximum likelihood state sequence calculation unit 52. The process proceeds from step S33 to step S35.
  • step S32 If it is determined in step S32 that the target content is content for which no description text can be acquired, the process proceeds to step S34, and the feature amount extraction unit 51 performs an image for each frame from the target content. A scene feature quantity as a feature quantity is extracted.
  • the feature amount extraction unit 51 uses, for example, dummy data as a text feature amount, and configures a multistream including a scene feature amount for each frame and a text feature amount as dummy data as an annotation sequence.
  • the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 52, and the process proceeds from step S34 to step S35.
  • step S35 the maximum likelihood state sequence calculation unit 52 acquires an annotation model of a category that matches the category of the target content from the annotation models stored in the annotation model storage unit 13.
  • the maximum likelihood state sequence calculation unit 52 obtains the maximum likelihood state sequence in which the annotation sequence from the feature amount extraction unit 51 is observed in the annotation model acquired from the annotation model storage unit 13, and the keyword match degree calculation unit 53. The process proceeds from step S35 to step S36.
  • step S36 the keyword matching degree calculation unit 53 sequentially uses the frames of the target content as the attention frame, and the words observed in the state corresponding to the attention frame in the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 52.
  • the keyword matching degree of the frame of interest is obtained based on the multinomial distribution of the frequency.
  • the keyword matching degree calculation unit 53 determines whether the keyword supply unit 54 in the multinomial distribution of word frequencies observed in the t-th state of the maximum likelihood state sequence The frequency of keywords included in the search query (probability that keywords are observed) is obtained as the keyword matching degree in the t-th frame.
  • the keyword match degree calculation unit 53 When the keyword match degree calculation unit 53 obtains the keyword match degree for all the frames of the target content, the keyword match degree calculation unit 53 supplies the keyword match degree to the frame selection unit 55, and the process proceeds from step S36 to step S37.
  • step S37 the frame selection unit 55 acquires the target content from the content storage unit 11, and based on the keyword matching degree from the keyword matching degree selection unit 53, the keyword matching the keyword (search query) from the target content. Select a frame.
  • the frame selection unit 55 selects, as a keyword frame, a frame in which the keyword matching degree from the keyword matching degree selection unit 53 is higher than the search threshold from the target content, and arranges the keyword frames in chronological order, Output as a keyword digest and end the frame search process.
  • the frame search device 15 extracts the image feature amount of each frame of the image of the target content, configures the annotation sequence using the image feature amount, and observes the annotation sequence in the annotation model.
  • an application using an annotation model can be provided that reproduces a keyword digest of only such a keyword frame.
  • the frame search device 15 when the description text can be acquired for the target content, the image feature amount of each frame of the image of the target content and the text feature of the description text If an explanatory text cannot be acquired for the target content, the dummy data is used as the text feature amount. Since the annotation series including the image feature amount and the text feature amount that is dummy data is used, a keyword digest can be generated from the target content regardless of the presence or absence of the explanatory text.
  • the frame selection unit 55 selects a frame that matches the keyword (a frame with a keyword matching degree higher than the search threshold) as a keyword. Search (select) from the target content as a frame, but the search query includes a search expression consisting of a plurality of keywords, and a frame that matches the search expression is searched from the target content as a keyword frame. Can do.
  • FIG. 12 to FIG. 14 are diagrams for explaining a method of searching a frame that matches a search formula composed of a plurality of keywords as a keyword frame.
  • a search query including a search expression (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4) consisting of four keywords KW # 1, KW # 2, KW # 3, and KW # 4
  • the keyword supply unit 54 supplies the keyword match degree calculation unit 53 to the keyword match degree calculation unit 53.
  • the AND search expression KW # 1 AND KW # 2 indicates that both the keywords KW # 1 and KW # 2 are matched, and the OR search expression KW # 1 OR KW # 2 is the keyword KW # 1 or KW Indicates that it matches # 2.
  • parentheses () indicate that the search expression in the parentheses is processed preferentially.
  • the keyword match degree calculation unit 53 uses the keywords KW # 1 and KW # 2 included in the search query. , KW # 3 and KW # 4, the keyword matching degree of each frame of the target content is obtained.
  • FIG. 12 is a diagram illustrating an example of the degree of matching of the keywords of each frame of the target content obtained for each of the keywords KW # 1, KW # 2, KW # 3, and KW # 4.
  • the keyword match of the target content for the keyword KW # 1 is the t-th frame, the t + 1-th frame, the t + 2-frame, the t + 3-frame, the t + 4-frame, and the t + 5-frame.
  • the degrees are 100, 150, 20, 0, 0, 0, respectively.
  • the keyword matching degrees of the target content for the keyword KW # 2 in the t-th frame to the t + 5th frame are 50, 200, 30, 0, 0, 0, respectively.
  • the degree of keyword match between the t-th frame and the t + 5th frame of the target content for the keyword KW # 3 is 0,0,0,150,40,200, respectively, and the t-th frame of the target content for the keyword KW # 4
  • the keyword matching degrees of the t + 5th frame are 0, 0, 0, 200, 100, and 50, respectively.
  • the keyword match degree calculation unit 53 obtains the keyword match degree for each of the keywords KW # 1 to KW # 4, the keyword match degree numerical value min operation is performed for the AND search expression of the search query, and an OR search of the search query is performed.
  • the keyword matching degree for the search query is obtained by performing a numerical value max operation for the keyword matching degree.
  • FIG. 13 is a diagram for explaining a numerical min operation as an AND search expression calculation. *
  • the keyword match degree calculation unit 53 includes an AND search expression KW # 1 AND KW # 2 of the search expression (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4), and an AND search expression KW # 3 AND. According to each of KW # 4, by performing the min operation of keyword match degree, keyword match degree for AND search expression KW # 1 AND KW # 2 and keyword match degree for AND search expression KW # 3 AND KW # 4 Ask for.
  • the keyword match degree calculation unit 53 follows the AND search expression KW # 1 AND KW # 2 and determines, for each frame of the target content, the keyword match degree for the keyword KW # 1 and the keyword match degree for the keyword KW # 2. Is selected as the keyword matching degree for the AND search expression KW # 1ANDAND ⁇ ⁇ KW # 2.
  • the keyword match degree calculation unit 53 calculates the keyword match degree for the keyword KW # 3 and the keyword match degree for the keyword KW # 4 for each frame of the target content according to the AND search expression KW # 3 AND KW # 4.
  • the keyword matching degree with the smaller value is selected as the keyword matching degree for the AND search expression KW # 3 AND KW # 4.
  • the keyword matching degrees for the AND search expression KW # 1 AND KW # 2 in the tth frame to the t + 5th frame are 100, 150, 100, 0, 0, 0, respectively.
  • the degree of keyword match for the expression KW # 3 AND KW # 4 is 0, 0, 0, 150, 40, and 50, respectively.
  • the keyword match degree calculation unit 53 performs the numerical max operation of the keyword match degree according to the OR search expression of the search expression (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4) Find the degree of keyword match for an OR search expression.
  • FIG. 14 is a diagram for explaining a numerical value max operation as an operation of an OR search expression.
  • the keyword match degree calculation unit 53 follows the OR search formula (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4) for each frame of the target content with respect to the AND search formula KW # 1 AND KW # 2.
  • the keyword match degree with the larger value is expressed as an OR search expression (KW # 1 AND KW # 2) OR (KW # Select as keyword match degree for 3 AND KW # 4).
  • the degree of keyword match for the OR search expression (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4) in the tth to t + 5th frames The keyword matching degrees for the search query search expressions (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4) are 100, 150, 100, 150, 40, and 50, respectively.
  • the keyword match degree calculation unit 53 obtains the keyword match degree for the search query (the search expression (KW # 1 AND KW # 2) OR (KW # 3 AND KW # 4)).
  • the keyword matching degree with respect to the query is supplied to the frame selection unit 55 (FIG. 10).
  • the frame selection unit 55 selects, from the target content, a frame having a keyword matching degree higher than the search threshold from the keyword matching calculation unit 53 as a keyword frame matching the search query.
  • the search threshold is now set to 90, in FIG. 14, the keyword matching degree with respect to the search query in the t-th frame to the t + 5th frame is higher than the search threshold.
  • the t + 3th frame is selected as the keyword frame.
  • FIG. 15 is a block diagram illustrating a configuration example of the display control device 16 of FIG.
  • the display control device 16 includes a feature amount extraction unit 61, a maximum likelihood state sequence calculation unit 62, and a display control unit 63.
  • the feature amount extraction unit 61 selects, from the content stored in the content storage unit 11, target content to be annotated, for example, according to a user operation, and acquires (reads) from the content storage unit 11. .
  • the feature quantity extraction unit 61 extracts a scene feature quantity as an image feature quantity from the target content in the same manner as the feature quantity extraction unit 41 of FIG. 8, and configures an annotation series using the scene feature quantity. Then, the maximum likelihood state sequence calculation unit 62 is supplied.
  • the feature amount extraction unit 61 uses the scene feature amount as the image feature amount for each frame and the text feature amount of the explanation text from the target content.
  • the word frequency information is extracted.
  • the feature amount extraction unit 61 configures a multi-stream including a scene feature amount and a text feature amount for each frame as an annotation sequence, and supplies the annotation sequence to the maximum likelihood state sequence calculation unit 62.
  • the feature amount extraction unit 61 extracts a scene feature amount as an image feature amount for each frame from the target content, and sets dummy data as A multi-stream that is used as a text feature value and includes a scene feature value for each frame and a text feature value that is dummy data is configured as an annotation sequence.
  • the feature amount extraction unit 61 supplies the maximum likelihood state sequence calculation unit 62 with an annotation sequence composed of a scene feature amount for each frame and a text feature amount that is dummy data.
  • the maximum likelihood state sequence calculation unit 62 uses the annotation model (multi-stream HMM) stored in the annotation model storage unit 13 for annotation from the feature amount extraction unit 61.
  • the maximum likelihood state sequence in which the sequence is observed is obtained and supplied to the display control unit 63.
  • the display control unit 63 uses the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 62 in the same manner as the word selection unit 43 in FIG. To be displayed on a display (not shown).
  • the display control unit 63 sequentially sets the frames of the target content as the attention frame, and the frequency of words observed in the state corresponding to the attention frame in the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 62 (output)
  • the output probability distribution which is a multinomial distribution of probability
  • an annotation is attached to the attention frame by selecting a word with a high frequency (a word with a high probability of being observed) as an annotation to be attached to the attention frame.
  • the display control unit 63 displays the annotation given to each frame of the target content on the display for each state of the annotation model, for example.
  • the display control unit 63 An annotation given to each frame of content can be displayed on the display for each state of the annotation model.
  • the model map is a map in which the state of the annotation model is arranged, and the display control unit 63 obtains state coordinates that are the coordinates of the state position on the model map, and places the corresponding state at the position of the state coordinate. Draw the model map.
  • FIG. 16 is a diagram illustrating an example of a model map drawn by the display control unit 63.
  • the state at time t with reference to the head of the maximum likelihood state sequence (hereinafter also referred to as the maximum likelihood state sequence of the annotation model for the target content) in which the annotation sequence obtained from the target content is observed (
  • the t-th state from the top that constitutes the maximum likelihood state sequence is represented as s (t)
  • the number of frames of the target content is represented as T.
  • the maximum likelihood state sequence of the annotation model for the target content is a sequence of T states s (1), S (2), ..., s (T), of which the tth state (time The state t) s (t) corresponds to the frame (frame t) at the time t of the target content.
  • the state s (t) at time t is the state among N states s 1 , s 2 ,. Either.
  • the frame at the time t Corresponds to state s i .
  • each frame of the target content is associated with one of the N states s 1 to s N of the annotation model.
  • the entity of the maximum likelihood state series of the annotation model for the target content is a series of state IDs of any of the N states s 1 to s N corresponding to the frames at each time t of the target content.
  • Display control unit 63 (FIG. 15) is, one state s j from one state s i of other annotation model storage unit 13 to the stored annotation model (annotation model used to determine the maximum likelihood state series)
  • the inter-state distance d ij * is determined based on the state transition probability a ij from one state s i to another state s j .
  • the display control unit 63 sets the inter-state distance d ij * to, for example, 0.1
  • the inter-state distance d ij * is set to 1.0 (large value), for example.
  • the display control unit 63 performs the Euclidean distance d from one state s i to another state s j on the model map on which the N states s 1 to s N of the annotation model are arranged.
  • State coordinates Y i which are the coordinates of the state s i on the model map, are determined so that the error between ij and the state distance d ij * of the state distance matrix becomes small.
  • the display control unit 63 sets the state coordinates Y so as to minimize the Sammon Map error function E proportional to the statistical error between the Euclidean distance d ij and the inter-state distance d ij *. Find i .
  • Sammon Map is one of the multidimensional scaling methods.
  • J. W. Sammon, JR. "A Nonlinear Mapping for Data Structure Analysis", IEEE Transactions on Computers, vol. C -18, No. 5, May 1969.
  • the state coordinates Y i (x i , y i ) (x coordinates and y on the model map, which is a two-dimensional map, are set so as to minimize the error function E of Expression (4). Coordinates).
  • N represents the total number of states of the annotation model
  • i and j are state IDs that specify states that take integer values ranging from 1 to N.
  • d ij * represents an element (component) in the i-th row and j-th column of the inter-state distance matrix, and represents the inter-state distance from the state s i to the state s j .
  • d ij represents on the model map, the coordinates (state coordinates) Y i of the position of the state s i, the Euclidean distance between the coordinates Y j of the position of the state s j.
  • the display control unit 63 draws a model map (graphics) in which the corresponding state s i (image) is arranged at the position of the state coordinates Y i .
  • the display control unit 63 draws a line segment connecting the states on the model map according to the state transition probability between the states.
  • the display control unit 63 the position of the state s i on the model map, place and representative image representing a frame corresponding to the state s i, the annotations assigned to the frame corresponding to the state s i , Display on the display.
  • the display control unit 63 acquires the target content from the content storage unit 11, and among the frames corresponding to the state s i of the target content, the frame with the earliest display time (reproduction time) thumbnails obtained by reducing the frame) of the top side, or the like, to generate a representative image of the frame corresponding to the state s i.
  • the other thumbnail still images using only the earliest frame display time (beginning of frame), for example, It is possible to adopt a thumbnail of a moving image such as an animated GIF using a plurality of frames on the top side.
  • FIG. 16 shows a display example of a model map only displayed by the display control unit 63 (a display example of a model map in which no representative image and annotation are arranged).
  • an ellipse represents a state
  • a line segment (dotted line) connecting the ellipses represents a state transition.
  • the number attached to the ellipse represents the state ID of the state represented by the ellipse.
  • the display control unit 63 draws a model map (graphics) in which the corresponding state s i (the image (the ellipse in FIG. 16)) is arranged at the position of the state coordinate Y i obtained as described above.
  • the display control unit 63 draws a line segment connecting the states on the model map according to the state transition probability between the states. That is, when the state transition probability from the state s i on the model map to the other state s j is greater than a predetermined threshold, the display control unit 63 determines whether the state s i is between the states s i and s j. Draw a line segment connecting.
  • the state s i is drawn in ellipse (including a circle) such as ellipse or the like representing the state s i, for example, an output probability distribution b i of the state s i ( Depending on the maximum value of o), the radius and color can be changed for drawing.
  • the line segment connecting the states on the model map according to the state transition probability between the states is drawn by changing the width and color of the line segment according to the size of the state transition probability. can do.
  • the state is concentrated near the circumference (outer side) (outer edge) of the circular model map, and it is difficult to see the state arrangement, so to speak, visibility may be lost.
  • the display control unit 63 in FIG. 15 can determine the state coordinates Y i on the model map so as to correct the error function E of Equation (4) and minimize the corrected error function E.
  • the Euclidean distance d ij is the case not greater than the predetermined threshold value THd, the display control unit 63, in the calculation of the error function of Equation (4), as the Euclidean distance d ij, the Euclidean distance d ij, it Use.
  • the display control unit 63 sets the interstate distance dij * as the Euclidean distance dij in the calculation of the error function of Equation (4).
  • (D ij d ij * )
  • (Euclidean distance d ij is a distance equal to the inter-state distance d ij * ).
  • the state coordinates Y i and Y j are equal to the Euclidean distance dij and the state.
  • the inter-distance distance dij * is changed to match (the Euclidean distance dij is closer to the interstate distance dij * ).
  • the Euclidean distance d ij is two states s i and s j somewhat far, since the Euclidean distance d ij is kept as far away, as shown in FIG. 16, near the model map of the circumference (outer edge) Moreover, it is possible to prevent the visibility from being lost due to the dense state.
  • FIG. 17 is a diagram showing a display example of a model map obtained using the error function E after correction.
  • 18 and 19 are diagrams showing display examples of a model map displayed by the display control unit 63 in which representative images and annotations are arranged.
  • FIG. 19 is an enlarged view enlarging a portion surrounded by a thick-line ellipse in FIG.
  • a representative image of the frame corresponding to the state is displayed (arranged) in the rectangle representing the state in which the corresponding frame exists, and further, as an annotation attached to the frame corresponding to the state in the lower part A word is displayed.
  • the content requested by the user is displayed as the target content, and a model map in which representative images and annotations are arranged as shown in FIGS. 18 and 19 is displayed for the target content. Can be made.
  • the display control unit 63 can display an image of the playback frame larger than the representative image in place of the representative image for the state corresponding to the currently played frame (hereinafter also referred to as a playback frame). .
  • the annotation corresponding to the playback frame can be displayed larger than the other states.
  • the display control unit 63 when the representative image is designated by the user, the reproduction is started from the frame having the earliest display time, for example, among the frames corresponding to the state in which the representative image is displayed. In addition, it is possible to control the reproduction of the target content.
  • the annotation given to the frame corresponding to the state of the annotation model is also referred to as state annotation
  • the representative image of the frame corresponding to the state of the annotation model is also referred to as state representative image.
  • the user can refer to the annotation or the representative image to display the frame of the content of interest ( Can be easily found and playback from that frame can be performed.
  • FIG. 20 is a flowchart for explaining display control processing in which the display control device 16 in FIG. 15 displays a model map.
  • step S51 to S55 the display control device 16 performs the same processes as steps S21 to S25 in FIG.
  • step S51 the feature amount extraction unit 61 selects, from the content stored in the content storage unit 11, the content instructed to be played according to the user's operation as the target content to be annotated. Obtained from the content storage unit 11, the process proceeds to step S52.
  • step S52 the feature amount extraction unit 61 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S52 When it is determined in step S52 that the target content is content that can acquire the explanatory text, the process proceeds to step S53, and the feature amount extraction unit 61 performs a scene as an image feature amount for each frame from the target content. A feature amount and word frequency information as a text feature amount of the explanatory text are extracted.
  • the feature amount extraction unit 61 configures a multi-stream including a scene feature amount and a text feature amount for each frame as an annotation sequence, and supplies the annotation sequence to the maximum likelihood state sequence calculation unit 62. The process proceeds from step S53 to step S55.
  • step S52 If it is determined in step S52 that the target content is content for which no description text can be acquired, the process proceeds to step S54, and the feature amount extraction unit 61 performs an image for each frame from the target content. A scene feature quantity as a feature quantity is extracted.
  • the feature amount extraction unit 61 uses, for example, dummy data as a text feature amount, and configures a multi-stream including a scene feature amount for each frame and a text feature amount as dummy data as an annotation sequence.
  • the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 62, and the process proceeds from step S54 to step S55.
  • step S55 the maximum likelihood state sequence calculation unit 62 acquires an annotation model of a category that matches the category of the target content from the annotation models stored in the annotation model storage unit 13.
  • the maximum likelihood state sequence calculation unit 62 obtains the maximum likelihood state sequence in which the annotation series from the feature amount extraction unit 61 is observed in the annotation model acquired from the annotation model storage unit 13, and supplies the maximum likelihood state sequence to the display control unit 63. Then, the process proceeds from step S55 to step S56.
  • the t-th frame of the target content is associated with the state that is the tth state of the maximum likelihood state sequence among the states of the annotation model. It is done.
  • step S56 the display control unit 63 acquires the target content from the content storage unit 11. Further, for each state of the annotation model stored in the annotation model storage unit 13, the display control unit 63 generates a representative image of the state (corresponding frame) using the frame of the target content corresponding to the state. Then, the process proceeds from step S56 to step S57.
  • the display control unit 63 selects a thumbnail obtained by reducing the frame having the earliest display time among the frames of the target content corresponding to the attention state of interest. And generated as a representative image of the attention state.
  • step S57 the display control unit 63 uses the frames of the target content as the frames of interest sequentially, as in the annotation assignment device 14 (FIG. 18), and the attention state of the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 62. Based on the multinomial distribution of the frequency of words observed in the state corresponding to the frame, a word having a high frequency (output probability) is selected as an annotation (to be a target word) to be added to the frame of interest. Annotate.
  • annotation to a state is performed by assigning words having a high frequency (output probability) based on the multinomial distribution of the frequency of words observed in the state, as in the case of annotation to a frame corresponding to the state. This can be done by selecting as an annotation (to be a word) to be given to the state.
  • step S57 when annotation is added to all the frames of the target content, the process proceeds to step S58, and the display control unit 63 selects the annotation model stored in the annotation model storage unit 13 (for the target content, A model map (FIGS. 16 and 17) is generated as described above using the annotation model used to obtain the likelihood state sequence.
  • step S59 a process progresses to step S59 from step S58, and the display control part 63 displays a model map on a display.
  • the display control unit 63 uses the representative image generated in step S56 and the annotation obtained in step S57 to construct each state on the model map (however, the maximum likelihood state series obtained for the target content). Display a representative image and annotation in that state.
  • step S59 the display control unit 63 controls the reproduction of the target content.
  • the display control unit 63 starts reproduction from the first frame of the target content, and as shown in FIG. 18, the state corresponding to the currently reproduced frame (reproduction frame) on the model map. Displays the image of the playback frame larger than the representative image instead of the representative image, and displays the annotation larger than the other states.
  • the display control unit 63 ends the playback of the frame that is the playback frame, and the user Of the frames corresponding to the specified state, the frame with the earliest display time is set as the reproduction frame, and the reproduction is resumed.
  • the display control device 16 extracts the image feature amount of each frame of the image of the target content, configures an annotation sequence using the image feature amount, and observes the annotation sequence in the annotation model.
  • a maximum likelihood state sequence to be obtained and select a word having a high frequency in a multinomial distribution observed in a state corresponding to the target frame of interest among the states of the maximum likelihood state sequence as an annotation to be given to the target frame, For example, in a display format using a model map (FIGS. 18 and 19), an annotation to be added to a frame corresponding to the state is displayed for each state of the annotation model, so that the user can add the annotation to the target content. Can be listed.
  • the display control device 16 when a state on the model map on which the annotation is displayed is specified, an application using the annotation can be provided in which playback of a frame corresponding to the state is started. .
  • the display control device 16 as in the annotation assignment device 14 and the frame search device 15, when the description text can be acquired for the target content, the image feature amount of each frame of the target content image And the text feature amount of the explanatory text are extracted, the annotation feature including the image feature amount and the text feature amount is configured, and if the explanatory text cannot be obtained for the target content, the text feature As an amount, dummy data is used to form an annotation series that includes image feature amounts and text feature amounts that are dummy data. Therefore, annotations are displayed for target content regardless of the presence or absence of explanatory text. can do.
  • the annotation added to the frame of the target content for each state of the annotation model can be displayed in a display format (view) other than the display format using the model map (FIGS. 18 and 19). is there.
  • the annotation given to the frame of the target content is displayed for each state of the annotation model in, for example, a display format in which state annotations are arranged in one direction or a display format in which the annotations are arranged in a two-dimensional table format. It is possible to display.
  • the feature amount extraction unit 21 (FIG. 2) of the learning device 12 the feature amount extraction unit 41 (FIG. 8) of the annotation assignment device 14, the feature amount extraction unit 51 (FIG. 10) of the frame search device 15, and display control.
  • the feature quantity extraction unit 61 (FIG. 15) of the device 16 can be shared by the feature quantity extraction unit 21 (FIG. 2) of the learning device 12.
  • the maximum likelihood state sequence calculation unit 42 (FIG. 8) of the annotation assigning device 14, the maximum likelihood state sequence calculation unit 52 (FIG. 10) of the frame search device 15, and the maximum likelihood state sequence calculation unit 62 of the display control device 16. (FIG. 16) can be shared by any one of them.
  • FIG. 21 is a block diagram illustrating a second configuration example of the feature amount extraction unit 21 of FIG.
  • 21 is common to the case of FIG. 3 in that it includes an image acquisition unit 31, an explanation text acquisition unit 33, a text feature extraction unit 34, and a synchronization unit 35.
  • the feature quantity extraction unit 21 in FIG. 21 is provided with an image feature quantity extraction unit 101 instead of the image feature quantity extraction unit 32, and a voice acquisition unit 102 and a voice feature quantity extraction unit 103 are newly provided. 3 is different from the case of FIG.
  • the image feature quantity extraction unit 101 includes a first image feature quantity extraction unit 101 1 , a second image feature quantity extraction unit 101 2 , and a third image feature quantity extraction unit 101 3 , and is supplied from the image acquisition unit 31.
  • a first image feature value, a second image feature value, and a third image feature value are extracted from each frame of the image as a plurality of types of image feature values and supplied to the synchronization unit 35.
  • the first image feature extraction unit 101 1, each frame of the image from the image acquisition unit 31, in time order, selected frame of interest, from the frame of interest, for example, an image feature amount extracting unit 32 in FIG. 3 Similarly, the scene feature amount is extracted as the first image feature amount and supplied to the synchronization unit 35.
  • Second image feature extraction unit 101 each frame of the image from the image acquisition unit 31, in time order, selected frame of interest, from the frame of interest, for example, the smallest rectangle that surrounds the area where the person is reflected A human rectangular area that is an area is detected.
  • a frame of interest is divided into sub-regions is a plurality of small regions, each sub-region, the number of pixels person rectangular region existing in the sub-region, sub-region
  • the ratio of the human rectangular area in the sub area (hereinafter also referred to as the human rectangular area ratio) is obtained.
  • the second image feature extraction unit 101 2 a person rectangular region of each sub-region of the frame of interest constitutes a vector whose components, the vector, the second image characteristic amount extracted from the frame of interest, This is supplied to the synchronization unit 35.
  • Third feature amount extraction unit 101 each frame of the image from the image acquisition unit 31, in time order, selected frame of interest, from the frame of interest, for example, the smallest rectangle which encloses the area where a human face is reflected The face rectangular area that is the area is detected.
  • the third image feature amount extracting unit 101 3 a frame of interest is divided into sub-regions is a plurality of small regions, each sub-region, the number of pixels the face rectangular region existing in the sub-region, sub-region
  • the ratio of the face rectangular area in the sub area (hereinafter also referred to as the face rectangular area ratio) is obtained by dividing by the number of pixels.
  • the third image feature amount extracting unit 101 3 a face rectangular region of each sub-region of the frame of interest constitutes a vector whose components, the vector, the third picture feature amount extracted from the frame of interest, This is supplied to the synchronization unit 35.
  • the plurality of types of image feature values extracted by the image feature value extraction unit 101 are not limited to the first image feature value or the third image feature value as described above.
  • the audio acquisition unit 102 acquires, for example, the same learning content that the image acquisition unit 31 acquires from the content storage unit 11 and demultiplexes (separates) the audio from the learning content. Then, it is supplied to the voice feature quantity extraction unit 103.
  • the voice feature quantity extraction unit 103 extracts a voice feature quantity from the voice from the voice acquisition unit 102 and supplies the voice feature quantity to the synchronization unit 35.
  • the voice feature amount extraction unit 103 uses a voice to a scene (for example, “music”, “non-music”, “noise”, and the like used in the field of sound classification (sound classification, audio classification). Primitive feature values that are primitive feature values for generating speech feature values suitable for classifying “human voice”, “human voice + music”, and “audience” are extracted.
  • the primitive feature amount for example, there are speech energy, zero crossing rate, spectrum centroid, and the like.
  • the method of extracting primitive features see, for example, ⁇ Zhu Liu; Jincheng Huang; Yao Wang; Tsuhan Chen, Audio feature extraction and analysis for scene classification, First Works on Multimedia Signal Processing, 1997., IEEE Volume, Issue -25 Jun 1997 Page (s): 343-348 '' and ⁇ Brezeale, D. Cook, DJ, Automatic Video Classification: A Survey of the Literature, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Review , May 2008, Volume: 38, Issue: 3, pp. ⁇ 416-430”.
  • the voice feature quantity extraction unit 103 extracts one or more types of primitive feature quantities from the voice in the window while shifting a window having a time length of 0.05 seconds or the like at regular intervals such as 0.05 seconds.
  • the speech feature amount extraction unit 103 pays attention to the time at which the primitive feature amount is extracted as the attention time sequentially, and the average value and the statistical amount such as the variance of the primitive feature amount during 0.5 seconds before and after the attention time. And a vector having the average value and variance as components is supplied to the synchronization unit 35 as a speech feature amount at the time of interest.
  • the synchronization unit 35 includes first to third image feature amounts supplied from the image feature amount extraction unit 101, audio feature amounts supplied from the audio feature amount extraction unit 103, and text
  • the text feature quantity supplied from the feature quantity extraction unit 34 is output in synchronization on a frame basis.
  • the synchronization unit 35 for example, the first to third image feature amount extracted from the target frame of interest, the audio feature amount at a time closest to a predetermined time such as the start time of the target frame, and A set of text feature amounts obtained from a window at a time position after the frame of interest, which is obtained from a window at a position closest in time to the frame of interest, is a first image feature amount to a third image feature amount of the frame of interest, Audio features supplied from the first to third image feature values supplied from the image feature value extraction unit 101 and the audio feature value extraction unit 103 so as to be a set of audio feature values and text feature values.
  • the amount and the text feature amount supplied from the text feature amount extraction unit 34 are synchronized and output to the model learning unit 22 (FIG. 2).
  • the model learning unit 22 converts the multistream including the first to third image feature amounts, the audio feature amount, and the text feature amount of the learning content supplied from the feature amount extraction unit 21 into the content.
  • An annotation model that is a multi-stream HMM is learned by using the annotation series as an annotation series for adding annotations to an annotation.
  • the annotation series which is a multi-stream used for learning in the model learning unit 22 is a five component series of the first image feature value to the third image feature value, the audio feature value, and the text feature value. It consists of o [1] , o [2] , o [3] , o [4] , o [5] .
  • the state of the annotation model obtained by learning using such an annotation sequence is one of the first image feature amount to the third image feature amount, the speech feature amount, and the text feature amount (five types).
  • a feature space which is a space defined by modal axes, express a group of frames that are close in distance and similar in temporal context (dividing the feature space into states) .
  • the feature amount extraction unit 21 of the learning device 12 extracts five feature amounts of the first image feature amount to the third image feature amount, the speech feature amount, and the text feature amount.
  • the feature amount extraction unit 21 similarly to the feature amount extraction unit 21, five feature amounts of the first image feature amount to the third image feature amount, the audio feature amount, and the text feature amount are extracted, and the annotation including the five feature amounts is extracted. Processing is performed using the business sequence.
  • the feature amount extraction unit 41 (FIG. 8) of the annotation assignment device 14
  • the feature amount extraction unit 51 (FIG. 10) of the frame search device 15
  • the feature amount extraction unit 61 (FIG. 15) of the display control device 16
  • dummy data is used as the text feature amount as described above.
  • an annotation sequence is composed of a first image feature amount to a third image feature amount, an audio feature amount, and a text feature amount, which are a large number of types of feature amounts.
  • the content can be classified more appropriately (accurately) into frames with similar content (when the maximum likelihood state sequence is obtained, the content Frames that are similar to each other correspond to the same state).
  • MFCC Mel Frequency Cepstrum Coefficient
  • FIG. 22 is a block diagram showing a third configuration example of the feature quantity extraction unit 21 of FIG.
  • the 22 includes an image acquisition unit 31, an image feature extraction unit 32, an explanatory text acquisition unit 33, a text feature extraction unit 34, and a synchronization unit 35. Common.
  • the feature quantity extraction unit 21 in FIG. 22 includes a base space learning unit 151, a base space data storage unit 152, a dimension compression unit 153, a base space learning unit 161, a base space data storage unit 162, and a dimension compression unit 153. It is different from the case of FIG. 3 in that it is newly provided.
  • the image feature amount of the learning content is supplied from the image feature amount extraction unit 32 to the base space learning unit 151.
  • the base space learning unit 151 obtains the base space data of the image base space having a dimension smaller than the image feature amount dimension for mapping the image feature amount using the image feature amount from the image feature amount extraction unit 32. And supplied to the base space data storage unit 152.
  • the base space data storage unit 152 stores the base space data of the image base space from the base space learning unit 151.
  • the dimension compression unit 153 is supplied with the image feature amount of the learning content from the image feature amount extraction unit 32.
  • the dimension compression unit 153 performs dimension compression to reduce the dimension of the image feature amount from the image feature amount extraction unit 32 based on the base space data of the image base space stored in the base space data storage unit 152, and performs dimension compression.
  • the subsequent image feature amount is supplied to the synchronization unit 35.
  • the image feature amount extracted by the image feature amount extraction unit 32 is a vector
  • the base space learning unit 151 uses the image feature amount of the learning content from the image feature amount extraction unit 32, for example, k
  • the codebook used for vector quantization is obtained as the base space data of the image base space by the -means method.
  • the dimension compression unit 153 performs dimension compression by performing vector quantization of the image feature amount from the image feature amount extraction unit 32 using the code book as the base space data of the image base space, and performs the code book.
  • a code scaling discrete value representing a centroid vector having the closest distance from the vector as the image feature amount from the image feature amount extraction unit 32 among the centroid vectors registered in the image is subjected to dimension compression. Obtained as a feature value.
  • a vector of a predetermined dimension as the image feature quantity from the image feature quantity extraction unit 32 is dimensionally compressed into a one-dimensional code.
  • This dimension compression is performed in a one-dimensional code space.
  • the dimensional compression of the image feature amount can be performed using, for example, HMM or SOM (Self-Organizing-Maps) in addition to vector quantization.
  • HMM learning is performed using the image feature amount extracted by the image feature amount extraction unit 32, and a maximum likelihood state sequence in which a time series of image feature amounts is observed is obtained in the learned HMM.
  • the state ID of the state corresponding to each image feature amount can be obtained as the image feature amount after dimension compression.
  • SOM learning is performed using the image feature amount extracted by the image feature amount extraction unit 32, and when the image feature amount is input to the learned SOM, a winner is obtained.
  • An ID representing a node can be obtained as an image feature amount after dimension compression.
  • the text feature amount of the learning content is supplied from the text feature amount extraction unit 34 to the base space learning unit 161.
  • the base space learning unit 161 uses the text feature amount from the text feature amount extraction unit 34 to calculate the base space data of the text base space having a dimension smaller than the text feature amount dimension for mapping the text feature amount. To the base space data storage unit 162.
  • the base space data storage unit 162 stores the base space data of the text base space from the base space learning unit 161.
  • the text feature amount of the learning content is supplied from the text feature amount extraction unit 34 to the dimension compression unit 163.
  • the dimension compression unit 163 performs dimension compression to reduce the dimension of the text feature amount from the text feature amount extraction unit 34 based on the base space data of the text base space stored in the base space data storage unit 162, and performs dimension compression.
  • the subsequent text feature amount is supplied to the synchronization unit 35.
  • the text feature amount extracted by the text feature amount extraction unit 34 is word frequency information related to the frequency with which each word appears in the explanation text. For example, as described with reference to FIGS.
  • Each word in the word dictionary (FIG. 5) in which K words are registered in the pseudo-document, which is obtained as a pseudo-document from the words included in the subtitle text displayed within (the time corresponding to the window) Is a K-dimensional vector (registered word frequency vector) whose frequency is the frequency of occurrence of.
  • the base space learning unit 161 uses, for example, LDA (Latent Dirichlet Allocation) learning by using a registered word frequency vector as a text feature amount obtained from a pseudo document, thereby converting the parameters of the LDA into the text base space. Obtained as base space data.
  • LDA Topic Dirichlet Allocation
  • the dimension compression unit 163 uses the LDA parameters as the base space data of the text base space, and uses the text feature amount obtained from the pseudo document as the likelihood of each potential topic of the LDA for the pseudo document.
  • a topic label scaling discrete value representing a latent topic with the maximum topic likelihood is obtained as a text feature after dimension compression.
  • the K-dimensional registered word frequency vector as the text feature amount from the text feature amount extraction unit 34 is dimensionally compressed into a one-dimensional topic label.
  • the topic label space is the text base space
  • the K-dimensional registered word frequency vector is mapped to the text base space.
  • FIG. 23 is a diagram for explaining LDA learning in which the base space learning unit 161 in FIG. 22 obtains LDA parameters as base space data of the text base space.
  • the base space learning unit 161 obtains LDA parameters by performing LDA learning using a registered word frequency vector as a text feature amount obtained from a pseudo document.
  • LDA is described in, for example, David M. Blei, Andrew Y. Ng, Michael I. Jordan “Latent Dirichlet Allocation”, Journal Machine Learning Research 3 (2003) 993-1022.
  • ⁇ parameter and ⁇ parameter are obtained, and the word word registered in the word dictionary is generated (logarithm) occurrence probability log ( P (word
  • the word occurrence probability log (P (word
  • a predetermined value determined in advance is used as the number D of latent topics.
  • the base space learning unit 161 uses the word occurrence probability log (P (word
  • topic) the word occurrence probability log
  • the base space learning unit 161 sequentially sets each potential topic of the LDA as a topic of interest, and generates a predetermined probability log (P (word
  • a constant for example, 1000
  • the base space learning unit 161 compares the appearance frequency of each word in the word dictionary obtained for the topic of interest with a predetermined threshold value (for example, 1), and selects a predetermined word from the words in the word dictionary.
  • a predetermined threshold value for example, 1
  • a word having an appearance frequency equal to or higher than the threshold is selected as a word having a high appearance frequency in the topic of interest (hereinafter also referred to as a frequent word).
  • the base space learning unit 161 associates the topic label of the topic of interest, the frequent word that frequently appears in the topic of interest, and the appearance frequency of the frequent word with each other, and registers them in the topic-to-frequent word table.
  • the number in parentheses ⁇ after “ldamap” is the topic label, and the word described after “words” after that is the previous topic. It is a frequent word that appears frequently in the latent topic represented by the label.
  • word_cnt the number described after “word_cnt” after the frequent word
  • number following “numwords” is the sum of the appearance frequencies of the frequent words.
  • the frequent words of each potential topic can be sorted in descending order of appearance frequency (in descending order of appearance frequency).
  • topic versus frequent word table can be stored in the annotation model storage unit 13 together with, for example, the annotation model and the word dictionary.
  • the base space learning unit 161 obtains the above LDA parameters and the topic versus frequent word table as base space data of the text base space.
  • FIG. 24 is a diagram for explaining the dimensional compression of the text feature amount performed by the dimensional compression unit 163 of FIG. 22 using the base space data of the text base space described with reference to FIG.
  • the dimension compressing unit 163 uses the LDA parameters as the base space data of the text base space, the text feature amount obtained from the pseudo document, and the topic likelihood that is the likelihood of each potential topic of the LDA for the pseudo document.
  • the topic label scaling discrete value representing the potential topic having the maximum topic likelihood is obtained as a text feature amount after dimension compression.
  • doc) can be obtained as LDA recognition result data that is the result of the LDA recognition process.
  • the dimension compression unit 163 uses the LDA parameter as the base space data of the text base space, and uses the text feature amount extraction unit 34 to calculate the K-dimensional registered word frequency vector as the text feature amount obtained from the pseudo document. By performing LDA recognition processing as an input, the topic likelihood of each potential topic of LDA for the pseudo document from which the text feature amount is obtained is obtained.
  • the K-dimensional registered word frequency vector becomes the topic likelihood of D latent topics as a D-dimensional discrete probability distribution. It will be mapped.
  • the dimension compressing unit 163 calculates the maximum topic likelihood that is the maximum value among the topic likelihoods of the D latent topics.
  • the topic label of the latent topic having the maximum topic likelihood is detected and output as a text feature amount after dimension compression.
  • the synchronization unit 35 includes a code (hereinafter also referred to as an image code) that is an image feature amount after dimension compression from the dimension compression unit 153 and a text feature amount after dimension compression from the dimension compression unit 163.
  • the topic labels are synchronized with each frame and output to the model learning unit 22 (FIG. 2).
  • the model learning unit 22 uses the sequence of image codes and topic labels from the feature amount extraction unit 21 (the synchronization unit 35 thereof) as an annotation sequence, learns an annotation model that is a multi-stream HMM, and re-reads Baum-Welch. Follow the estimation method.
  • the annotation sequence is an image code sequence as the first component sequence o [1] and a topic label sequence as the second component sequence o [2] . It consists of two component series.
  • the image code that is the first component series o [1] of the annotation series is a discrete value, and the output probability distribution (observation model) b [1] j (o [1 ] of each state s j of the annotation model ] ) A multinomial distribution is used.
  • topic label which is the second component series o [2] is also a discrete value, and is a multinomial distribution as an output probability distribution b [2] j (o [2] ) of each state s j of the annotation model. Is used.
  • the initial probability ⁇ i the state transition probability a ij , and the output probability distribution b j (o [1] , o [2 ] obtained according to Equation (1) ]
  • the state probability ⁇ (h) t, j in the state j at time t is obtained for the h-th learning content in the same manner as in the case of HMM learning using a single sequence. .
  • the multinomial distribution as the output probability distribution b [1] j in which each image code is observed, and each topic label is obtained according to Expression (5).
  • the distribution (probability) of one image code observed at time t is 1.
  • the distribution of the remaining image codes is a multinomial distribution in which all are zero.
  • the topic label multinomial distribution o (h) [2] (t) is a distribution of one topic label observed at time t, assuming that the total number of topic labels (number of potential topics) is D. (Probability) is 1, and the distribution of the remaining topic labels is all multinomial distribution is 0.
  • FIG. 25 is a block diagram illustrating a configuration example of the feature amount extraction unit 41 (FIG. 8) of the annotation assignment device 14 when the feature amount extraction unit 21 of the learning device 12 is configured as illustrated in FIG. 22. .
  • the feature amount extraction unit 51 (FIG. 10) of the frame search device 15 and the feature amount extraction unit 61 (FIG. 15) of the display control device 16 are configured in the same manner as the feature amount extraction unit 41 of the annotation assignment device 14.
  • the feature quantity extraction unit 41 of the annotation assignment apparatus 14 includes an image acquisition unit 171, an image feature quantity extraction unit 172, a base space data storage unit 173, a dimension compression unit 174, an explanatory text acquisition unit 181, A text feature amount extraction unit 182, a base space data storage unit 183, a dimension compression unit 184, and a synchronization unit 191 are included.
  • the base space data storage unit 173 stores the base space data of the image base space obtained by the base space learning unit 151 of FIG. 22, and the base space data storage unit 183 The base space data of the text base space obtained by the 22 base space learning units 161 is stored.
  • the same processing as that of the image acquisition unit 31, the image feature amount extraction unit 32, the dimension compression unit 153, the description text acquisition unit 33, the text feature amount extraction unit 34, the dimension compression unit 163, and the synchronization unit 35 is performed.
  • an annotation sequence in which an image code as an image feature amount after dimension compression and a topic label as a text feature amount after dimension compression are synchronized in units of frames is configured.
  • an annotation sequence is configured using dummy data (one-dimensional discrete values) as topic labels as text feature quantities after dimension compression.
  • dimensional compression is performed on both the image feature quantity and the text feature quantity, but the dimensional compression is performed only on one of the image feature quantity and the text feature quantity. It is possible.
  • feature amount extraction unit 41 it is necessary for the feature amount extraction unit 21 and the feature amount extraction unit 41 (feature amount extraction units 51 and 61) to agree whether or not to perform dimension compression on the image feature amount and the text feature amount.
  • FIG. 26 is a flowchart for explaining annotation assignment processing by the annotation assignment apparatus 14 in FIG. 8 when at least dimensional compression of a text feature amount is performed.
  • step S101 the feature amount extraction unit 41 (FIG. 8) selects the target content to be annotated from the content stored in the content storage unit 11, acquires it from the content storage unit 11, The process proceeds to step S102.
  • step S102 the feature amount extraction unit 41 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S102 If it is determined in step S102 that the target content is content for which the explanatory text can be acquired, the process proceeds to step S103, and the feature amount extraction unit 41 determines the image feature amount for each frame from the target content. And the word frequency information as the text feature amount of the caption text as the explanatory text are extracted.
  • the feature quantity extraction unit 41 performs dimension compression of each scene feature quantity and text feature quantity for each frame, and converts the multi-stream including the scene feature quantity and text feature quantity after the dimension compression into an annotation series. Configure as. Then, the feature quantity extraction unit 41 supplies the annotation sequence to the maximum likelihood state sequence calculation unit 42, and the process proceeds from step S103 to step S105.
  • step S102 If it is determined in step S102 that the target content is content for which no description text can be acquired, the process proceeds to step S104, and the feature amount extraction unit 41 performs an image for each frame from the target content. A scene feature quantity as a feature quantity is extracted.
  • the feature quantity extraction unit 41 performs dimensional compression of the scene feature quantity for each frame. Then, the feature quantity extraction unit 41 uses, for example, dummy data (for example, a topic label having a predetermined value) as the text feature quantity after dimension compression, and the dimension that is the scene feature quantity after dimension compression and dummy data.
  • dummy data for example, a topic label having a predetermined value
  • the multi-stream including the compressed text feature amount is configured as an annotation sequence, the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 42, and the process proceeds from step S104 to step S105.
  • step S105 the maximum likelihood state sequence calculation unit 42 selects an annotation model (a category of the target content) that matches the category of the target content from the annotation models (multi-stream HMM) stored in the annotation model storage unit 13. Annotation model learned using the learning content of the matching category is acquired.
  • the maximum likelihood state sequence calculation unit 42 obtains the maximum likelihood state sequence in which the annotation series from the feature amount extraction unit 41 is observed in the annotation model acquired from the annotation model storage unit 13, and supplies the maximum likelihood state sequence to the word selection unit 43. Then, the process proceeds from step S105 to step S106.
  • step S106 the word selection unit 43 sequentially sets the frames of the target content as the attention frame, and the latent topics (in the state corresponding to the attention frame of the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 42) ( Potential topic suitable for expressing the contents of the frame of interest is selected as a frame topic.
  • the word selection unit 43 outputs the output probability in the output probability distribution of the latent topic (its topic label) observed in the t-th state of the maximum likelihood state sequence.
  • a potential topic having a high is selected as the frame topic of the t-th frame.
  • the latent topic with the highest output probability or a plurality of latents with the highest output probability You can select a topic.
  • step S106 When the frame topic of each frame of the target content is selected, the process proceeds from step S106 to step S107, and the word selection unit 43 performs, for each frame of the target content, based on the topic versus frequent word table (FIG. 23).
  • the frequent word of the frame topic of the frame is selected as an annotation to be added to the frame.
  • the word selection unit 43 causes the frequent word of the frame topic (the latent topic) of the t-th frame that is the attention frame in the topic versus frequent word table.
  • a frequently occurring word having the highest appearance frequency or a plurality of frequently appearing words having the highest appearance frequency are selected as annotations to be added to the attention frame.
  • an annotation to be a word to be added to the attention frame from the frequent words of each of the plurality of potential topics Can be selected.
  • a plurality of potential topics are selected as the frame topic of the t-th frame that is the attention frame, for example, among the frequent words of each of the plurality of latent topics that are the frame topic of the t-th frame
  • the frequently occurring word with the highest appearance frequency can be selected as an annotation to be added to the t-th frame.
  • the output probability of the latent topic that is the frame topic of the t-th frame (the maximum likelihood state sequence)
  • the occurrence frequency is corrected by multiplying the appearance frequency of the potential topic that is a frame topic) in the t-th state by the appearance frequency of the frequent word of that latent topic.
  • the highest word or a plurality of frequently appearing words with higher appearance frequency after correction can be selected as annotations to be added to the t-th frame.
  • the word selection unit 43 selects all the frames of the target content as the target frame and selects a word as an annotation to be added to the target frame, and when an annotation is added to all of the target content frames, the processing is performed. Then, the process proceeds from step S107 to step S108, and the word selection unit 43 associates the annotation given to each frame of the target content with the frame number of the frame (t of the t-th frame) and outputs it as annotation word information.
  • the annotation assignment process ends.
  • the annotation assigning device 14 extracts the image feature amount of each frame of the image of the target content, performs dimensional compression, configures the annotation sequence using the image feature amount after the dimensional compression,
  • the maximum likelihood state sequence in which the annotation sequence is observed is obtained, and the latent topic represented by the topic label having a high output probability in the state corresponding to the target frame of interest in the state of the maximum likelihood state sequence is focused.
  • FIG. 9 when selecting as a frame topic representing the contents of a frame and selecting a frequent word having a high appearance frequency in the frame topic based on the topic versus frequent word table as an annotation to be added to the frame of interest. , Making it easy to add annotations to target content Kill.
  • FIG. 27 is a flowchart for explaining frame search processing by the frame search device 15 of FIG. 10 when at least dimensional compression of the text feature amount is performed.
  • the keyword supply unit 55 supplies, for example, a search query including a keyword to the keyword match degree calculation unit 53 in accordance with a user operation.
  • steps S121 to S125 the same processing as in steps S101 to S105 of FIG. 26 is performed.
  • step S121 the feature amount extraction unit 51 (FIG. 10) selects the target content from the content stored in the content storage unit 11, acquires it from the content storage unit 11, and the processing is performed in step S122. Proceed to
  • step S122 the feature amount extraction unit 51 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S122 If it is determined in step S122 that the target content is content from which the description text can be acquired, the process proceeds to step S123, and the feature amount extraction unit 51 determines the scene as the image feature amount for each frame from the target content. A feature amount and word frequency information as a text feature amount of the explanatory text are extracted.
  • the feature quantity extraction unit 51 performs dimension compression of each scene feature quantity and text feature quantity for each frame, and uses a multi-stream including the scene feature quantity and text feature quantity after dimension compression as an annotation series. Constitute. Then, the feature quantity extraction unit 51 supplies the annotation sequence to the maximum likelihood state sequence calculation unit 52, and the process proceeds from step S123 to step S125.
  • step S122 If it is determined in step S122 that the target content is content for which no description text can be acquired, the process proceeds to step S124, and the feature amount extraction unit 51 performs an image for each frame from the target content. A scene feature quantity as a feature quantity is extracted.
  • the feature quantity extraction unit 51 performs dimensional compression of the scene feature quantity for each frame. Then, the feature amount extraction unit 51 uses, for example, dummy data as a text feature amount after dimension compression, and includes a scene feature amount after dimension compression and a text feature amount after dimension compression that is dummy data.
  • the stream is configured as an annotation sequence, the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 52, and the process proceeds from step S124 to step S125.
  • step S125 the maximum likelihood state sequence calculation unit 52 acquires an annotation model of a category that matches the category of the target content from the annotation models stored in the annotation model storage unit 13.
  • the maximum likelihood state sequence calculation unit 52 obtains the maximum likelihood state sequence in which the annotation sequence from the feature amount extraction unit 51 is observed in the annotation model acquired from the annotation model storage unit 13, and the keyword match degree calculation unit 53. The process proceeds from step S125 to step S126.
  • step S126 the keyword matching degree calculation unit 53 sequentially sets the frames of the target content as the attention frame, and observes the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 52 in the state corresponding to the attention frame.
  • a potential topic suitable for expressing the contents of the frame of interest is selected as a frame topic based on the output probability distribution of the topic (topic label).
  • the keyword degree coincidence calculation unit 53 outputs, for example, the output probability of the latent topic (its topic label) observed in the t-th state of the maximum likelihood state sequence.
  • the potential topic having the highest output probability in the distribution is selected as the frame topic of the t-th frame.
  • step S126 the process proceeds from step S126 to step S127, and the keyword matching degree calculation unit 53 uses the keyword included in the search query from the keyword supply unit 54 for each potential topic based on the topic versus frequent word table (FIG. 23).
  • the appearance frequency of (frequently matching words) is obtained, and a frequency vector having the appearance frequency as a component is obtained.
  • the keyword matching degree calculation unit 53 includes the frequent words in the first potential topic among the D potential topics in the topic versus frequent word table. Thus, a frequent word that matches the keyword is detected, and the appearance frequency of the frequent word is acquired.
  • the keyword matching degree calculation unit 53 obtains the appearance frequency of the frequent words that match the keyword, and the frequent words that match the keyword acquired for the D latent topics.
  • a D-dimensional frequency vector whose component is the appearance frequency of is obtained.
  • a 10-dimensional vector such as (10,50,0,0,2,0,0,0,4,0) Required as a vector.
  • the frequency of occurrence of the frequent word that matches the keyword is set to 0 for that potential topic.
  • step S127 the process proceeds from step S127 to step S128, and the keyword match degree calculation unit 53 determines, for each frame of the target content, the frame topic (of that frame) based on the frequency vector. Frequency of occurrence of a keyword (frequent word that matches) in a potential topic) is obtained as a keyword matching degree.
  • the keyword matching degree calculation unit 53 determines the appearance frequency of occurrence of frequent words that match the keyword in the latent topic that is the frame topic of the t-th frame.
  • the keyword match degree of the t-th frame is obtained from the frequency vector.
  • the keyword match degree calculation unit 53 When the keyword match degree calculation unit 53 obtains the keyword match degree for all the frames of the target content, the keyword match degree calculation unit 53 supplies the keyword match degree to the frame selection unit 55, and the process proceeds from step S128 to step S129.
  • step S129 the frame selection unit 55 acquires the target content from the content storage unit 11, and based on the keyword match degree from the keyword match degree selection unit 53, the keyword that matches the keyword (search query) from the target content. Select a frame.
  • the frame selection unit 55 selects, as a keyword frame, a frame in which the keyword matching degree from the keyword matching degree selection unit 53 is higher than the search threshold from the target content. Are output as a keyword digest, and the frame search process is terminated.
  • the frame search device 15 extracts the image feature amount of each frame of the image of the target content, performs dimensional compression, and uses the image feature amount after the dimensional compression to construct an annotation sequence
  • the annotation model the maximum likelihood state sequence in which the annotation sequence is observed is obtained, and the latent topic represented by the topic label having a high output probability in the state corresponding to the target frame of interest in the state of the maximum likelihood state sequence is focused.
  • the appearance frequency of the keyword in the frame topic is obtained based on the topic versus frequent word table, and the attention frame having the high keyword appearance frequency is selected as the keyword frame, FIG.
  • FIG. 28 is a flowchart for explaining the display control process of the model map by the display control device 16 of FIG. 15 when at least the dimensional compression of the text feature amount is performed.
  • step S141 to S145 the display control device 16 performs the same processes as steps S101 to S105 in FIG.
  • step S141 the feature quantity extraction unit 61 (FIG. 15) sets the content to be annotated from the content stored in the content storage unit 11 and instructed to be played according to the user's operation.
  • the content is selected and acquired from the content storage unit 11, and the process proceeds to step S142.
  • step S142 the feature amount extraction unit 61 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S142 If it is determined in step S142 that the target content is content for which the explanatory text can be acquired, the process proceeds to step S143, and the feature amount extraction unit 61 performs a scene as an image feature amount for each frame from the target content. A feature amount and word frequency information as a text feature amount of the explanatory text are extracted.
  • the feature quantity extraction unit 61 performs dimension compression of each scene feature quantity and text feature quantity for each frame, and converts the multi-stream including the scene feature quantity and text feature quantity after the dimension compression into an annotation series. Configure as. Then, the feature quantity extraction unit 61 supplies the annotation sequence to the maximum likelihood state sequence calculation unit 62, and the process proceeds from step S143 to step S145.
  • step S142 If it is determined in step S142 that the target content is content for which no description text can be acquired, the process proceeds to step S144, and the feature amount extraction unit 61 performs an image for each frame from the target content. A scene feature quantity as a feature quantity is extracted.
  • the feature quantity extraction unit 61 performs dimensional compression of the scene feature quantity for each frame. Then, the feature quantity extraction unit 61 uses, for example, dummy data as a text feature quantity after dimension compression, and includes a scene feature quantity after dimension compression and a text feature quantity after dimension compression that is dummy data.
  • the stream is configured as an annotation sequence, the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 62, and the process proceeds from step S144 to step S145.
  • step S145 the maximum likelihood state sequence calculation unit 62 acquires an annotation model of a category that matches the category of the target content from the annotation models (multi-stream HMM) stored in the annotation model storage unit 13.
  • the maximum likelihood state sequence calculation unit 62 obtains the maximum likelihood state sequence in which the annotation sequence from the feature amount extraction unit 61 is observed in the annotation model acquired from the annotation model storage unit 13 and supplies the maximum likelihood state sequence to the display control unit 63. Then, the process proceeds from step S145 to step S146. *
  • step S146 the display control unit 63 acquires the target content from the content storage unit 11 as in step S56 of FIG. Furthermore, the display control unit 63 uses the frame of the target content corresponding to each state of the annotation model stored in the annotation model storage unit 13 for each state (N) as in step S56 of FIG. The representative image of the corresponding frame) is generated, and the process proceeds from step S146 to step S147.
  • step S147 the display control unit 63 performs the same processing as in steps S106 and S107 in FIG. 26 using the annotation model and the topic pair frequent word table, and the annotation (becomes a word to be added to each frame of the target content. ) And annotate each frame of the target content.
  • the display control unit 63 sequentially sets the frames of the target content as the attention frame, and the latent topic observed in the state corresponding to the attention frame in the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 62.
  • a potential topic suitable for expressing the content of the frame of interest is selected as a frame topic based on the output probability distribution of the label.
  • the display control unit 63 selects, for each frame of the target content, the frequent word of the frame topic of the target content as an annotation to be given to the frame based on the topic versus frequent word table (FIG. 23).
  • step S147 the process proceeds from step S147 to step S148, and the display control unit 63 obtains the maximum likelihood state sequence for the annotation model (target content) stored in the annotation model storage unit 13 as in step S58 of FIG.
  • the annotation model used in the above is used to generate a model map (FIGS. 16 and 17), and the process proceeds to step S149.
  • step S149 as in step S59 of FIG. 20, the display control unit 63 causes the model map to be displayed on the display, and further displays the representative image and the annotation in each state on the model map. The process proceeds to step S150.
  • step S150 the display control unit 63 controls the reproduction of the target content as in step S60 of FIG.
  • the display control device 16 extracts the image feature amount of each frame of the image of the target content, performs dimensional compression, and uses the image feature amount after the dimensional compression to construct an annotation sequence
  • the state corresponding to each frame of the target content is obtained by obtaining the maximum likelihood state sequence in which the annotation series is observed, and the latent topic represented by the topic label having a high output probability in that state is set to the state.
  • the LDA parameters base space data of the text base space
  • the annotation series including the topic label which is the text feature amount after the dimension compression.
  • the display control device 16 gives an annotation (which is a frequent word) to the target content (each frame) through the latent topic of the LDA. Is done.
  • the annotation given to the target content is a display format using the model map (FIGS. 16 and 17) as described above. Can be displayed for each latent topic in addition to displaying for each annotation model state.
  • FIG. 29 is a diagram illustrating a display example in which annotations given to target content are displayed for each latent topic.
  • FIG. 29 shows an example of a topic list in which rectangular topic fields corresponding to potential topics of LDA are arranged in a two-dimensional table format.
  • topic list a number of topic fields equal to the number of LDA potential topics are arranged in a grid, and one topic topic is associated with each topic field.
  • the frequent words of the latent topic (latent topic associated with the topic column) corresponding to the topic column are displayed, for example, in order of appearance frequency.
  • the frequent words displayed in the topic field are limited to 20 characters as a predetermined number of characters due to the size of the topic field.
  • the target content has a frame with the potential topic corresponding to the focused topic column as a frame topic. This is the case.
  • FIG. 30 is a flowchart illustrating topic list display control processing by the display control device 16 of FIG.
  • step S171 to S176 the display control device 16 performs the same processes as steps S101 to S106 in FIG.
  • step S171 the feature quantity extraction unit 61 (FIG. 15) sets the content to be annotated from the content stored in the content storage unit 11 and instructed to be played according to the user's operation.
  • the content is selected and acquired from the content storage unit 11, and the process proceeds to step S172.
  • step S172 the feature amount extraction unit 61 determines whether the target content is content that can acquire the explanatory text or content that cannot acquire the explanatory text.
  • step S172 If it is determined in step S172 that the target content is content that allows acquisition of the explanatory text, the process proceeds to step S173, and the feature amount extraction unit 61 performs a scene as an image feature amount for each frame from the target content. A feature amount and word frequency information as a text feature amount of the explanatory text are extracted.
  • the feature quantity extraction unit 61 performs dimension compression of each scene feature quantity and text feature quantity for each frame, and converts the multi-stream including the scene feature quantity and text feature quantity after the dimension compression into an annotation series. Configure as. Then, the feature amount extraction unit 61 supplies the annotation sequence to the maximum likelihood state sequence calculation unit 62, and the process proceeds from step S173 to step S175.
  • step S172 If it is determined in step S172 that the target content is content for which no description text can be acquired, the process proceeds to step S174, and the feature amount extraction unit 61 performs an image for each frame from the target content. A scene feature quantity as a feature quantity is extracted.
  • the feature quantity extraction unit 61 performs dimensional compression of the scene feature quantity for each frame. Then, the feature quantity extraction unit 61 uses, for example, dummy data as a text feature quantity after dimension compression, and includes a scene feature quantity after dimension compression and a text feature quantity after dimension compression that is dummy data.
  • the stream is configured as an annotation sequence, the annotation sequence is supplied to the maximum likelihood state sequence calculation unit 62, and the process proceeds from step S174 to step S175.
  • step S175 the maximum likelihood state sequence calculation unit 62 acquires an annotation model of a category that matches the category of the target content from the annotation models (multi-stream HMM) stored in the annotation model storage unit 13.
  • the maximum likelihood state sequence calculation unit 62 obtains the maximum likelihood state sequence in which the annotation series from the feature amount extraction unit 61 is observed in the annotation model acquired from the annotation model storage unit 13, and supplies the maximum likelihood state sequence to the display control unit 63. Then, the process proceeds from step S175 to step S176.
  • step S176 the display control unit 63 sequentially sets the frames of the target content as the attention frame, and the latent topics (in the state corresponding to the attention frame of the maximum likelihood state sequence from the maximum likelihood state sequence calculation unit 62).
  • the potential topic having the highest output probability is selected as the frame topic based on the output probability distribution of the topic label), and the process proceeds to step S177.
  • step S177 the display control unit 63 generates a topic list (FIG. 29) having a topic column corresponding to each potential topic of the LDA, and the process proceeds to step S178.
  • step S178 the display control unit 63 associates each topic field of the topic list with a frame of the target content having the latent topic corresponding to the topic field as a frame topic, and the process proceeds to step S179.
  • step S179 the display control unit 63 selects, based on the topic versus frequent word table (FIG. 23), the frequent word of the latent topic corresponding to the topic field as an annotation to be added to the frame associated with the topic field. , Place in that topic column.
  • step S179 the display control unit 63 displays the topic list on the display, and the process proceeds to step S181.
  • step S181 the display control unit 63 controls the reproduction of the target content.
  • the display control unit 63 starts playback of a frame associated with the topic field.
  • the user sees the word as the annotation displayed in the topic field, grasps the outline of the contents of the frame associated with the topic field, and if interested, specifies the topic field, The frame associated with the topic field can be played back.
  • the display format of the annotation given to the target content can be switched according to the user operation or the like.
  • both the model map and the topic list are created, and the annotation display format is changed between the display format using the model map and the display format using the topic list. You can switch between each other.
  • FIG. 31 and FIG. 32 are diagrams for explaining the switching of the annotation display format.
  • FIG. 31 is a diagram showing an example of an annotation display format using a topic list.
  • the user looks at the word as an annotation displayed in the topic column of the topic list, grasps the outline of the contents of the frame associated with the topic column, and if interested, By specifying, the latent topic corresponding to the topic field can be selected as an interesting topic of interest.
  • the display control device 16 can highlight and display a topic column (hereinafter also referred to as an interesting topic column) corresponding to the latent topic selected as the interesting topic.
  • a topic column hereinafter also referred to as an interesting topic column
  • the topic of interest column (the topic column that became the topic) is emphasized by displaying an underline with a bold line on the words as annotations arranged in the topic of interest column.
  • the method of emphasizing the topic of interest column is not limited to the method of displaying the underline. That is, the interesting topic field can be emphasized by displaying it in a specific color (for example, red) different from other topic fields.
  • FIG. 31 (the same applies to FIG. 29), only the word as an annotation is displayed in the topic column of the topic list, but the topic column is associated with, for example, the topic column.
  • a representative image representing a frame can be generated and displayed.
  • FIG. 32 is a diagram showing an example of an annotation display format using a model map.
  • FIG. 32 shows a model map (display) switched from the topic list display of FIG.
  • the image of the reproduction frame is displayed larger than the representative image instead of the representative image, and the annotation is also displayed larger than the other states.
  • the state (corresponding to the frame associated with the topic of interest column in the topic list), a representative image in the rectangle, annotation, etc. ) Can be highlighted.
  • the state corresponding to the frame associated with the topic field of interest on the model map is highlighted by displaying a bold line below the rectangle representing the state.
  • the user can After selecting the topic field as the topic of interest field, switching to the model map, the state corresponding to the frame associated with the topic of interest on the model map, that is, the frame of the content that the user is interested in , Can be recognized at a glance.
  • the display control device 16 displays a frame topic frame that matches the frame topic corresponding to the selected state that is selected by the user. Other corresponding states can be detected and highlighted together with the selected state.
  • FIG. 33 is a block diagram showing a fourth configuration example of the feature quantity extraction unit 21 of FIG.
  • FIG. 33 portions corresponding to those in FIG. 21 or FIG. 22 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
  • an image acquisition unit 33 includes an image acquisition unit 31, an image feature extraction unit 101, an explanation text acquisition unit 33, a text feature extraction unit 34, a synchronization unit 35, a voice acquisition unit 102, and a voice feature extraction. It has the part 103 and is common to the case of FIG.
  • the feature quantity extraction unit 21 of FIG. 33 includes a base space learning unit 151, a base space data storage unit 152, a dimension compression unit 153, a base space learning unit 161, a base space data storage unit 162, and a dimension compression unit 153. This is common to the case of FIG.
  • the 33 includes a base space learning unit 201, a base space data storage unit 202, a dimension compression unit 203, a base space learning unit 211, a base space data storage unit 212, a dimension compression unit 213, and a base space.
  • the learning unit 221, the base space data storage unit 222, and the dimension compression unit 223 are newly provided, and are different from those in FIGS. 21 and 22.
  • the base space learning unit 201 is supplied with the second image feature amount of the learning content from the image feature amount extraction unit 101.
  • the base space learning unit 201 for example, in the same manner as the base space learning unit 151, as the base space data of the image base space having a dimension smaller than the dimension of the second image feature amount for mapping the second image feature amount.
  • a code book or the like is obtained using the second image feature amount from the image feature amount extraction unit 101 and supplied to the base space data storage unit 202.
  • the base space data storage unit 202 stores the base space data from the base space learning unit 201.
  • the second image feature amount of the learning content is supplied from the image feature amount extraction unit 101 to the dimension compression unit 203.
  • the dimension compression unit 203 reduces the dimension of the second image feature amount from the image feature amount extraction unit 101 based on the base space data stored in the base space data storage unit 202, similarly to the dimension compression unit 153.
  • Vector quantization or the like as dimensional compression is performed, and the second image feature amount after dimensional compression is supplied to the synchronization unit 35.
  • the base space learning unit 211 is supplied with the third image feature amount of the learning content from the image feature amount extraction unit 101.
  • the base space learning unit 211 serves as base space data of an image base space of a dimension smaller than the third image feature amount dimension for mapping the third image feature amount.
  • a code book or the like is obtained using the third image feature quantity from the image feature quantity extraction unit 101 and supplied to the base space data storage unit 212.
  • the base space data storage unit 212 stores the base space data from the base space learning unit 211.
  • the third image feature amount of the learning content is supplied from the image feature amount extraction unit 101 to the dimension compression unit 213.
  • the dimension compression unit 213 reduces the dimension of the third image feature amount from the image feature amount extraction unit 101 based on the base space data stored in the base space data storage unit 212, similarly to the dimension compression unit 153.
  • Vector quantization or the like as dimensional compression is performed, and the third image feature amount after dimensional compression is supplied to the synchronization unit 35.
  • the base space learning unit 221 is supplied with the audio feature amount of the learning content from the audio feature amount extraction unit 103.
  • the base space learning unit 22 for example, in the same way as the base space learning unit 151, generates a codebook or the like as base space data of a speech base space having a dimension smaller than the speech feature amount dimension for mapping speech feature amounts. Then, it is obtained using the voice feature quantity from the voice feature quantity extraction unit 103 and supplied to the base space data storage unit 222.
  • the base space data storage unit 222 stores the base space data from the base space learning unit 221.
  • the audio feature amount of the learning content is supplied from the audio feature amount extraction unit 103 to the dimension compression unit 223.
  • the dimension compression unit 223 reduces the dimension of the speech feature amount from the speech feature amount extraction unit 103 based on the base space data stored in the base space data storage unit 222, similarly to the dimension compression unit 153.
  • Vector quantization or the like is performed, and the speech feature after the dimension compression is supplied to the synchronization unit 35.
  • the first image feature amount to the third image feature amount, the audio feature amount, and the text feature amount are used as they are to form the annotation series.
  • FIG. 33 in FIG. Dimensional compression of the third image feature amount, the speech feature amount, and the text feature amount is performed. From the first image feature amount to the third image feature amount, the speech feature amount, and the text feature amount after the dimension compression, An annotation series is constructed and used for learning an annotation model.
  • FIG. 34 shows a feature amount extraction unit 41 (feature amount extraction unit of the frame search device 15) of the annotation assignment device 14 of FIG. 8 when the feature amount extraction unit 21 of the learning device 12 is configured as shown in FIG. 51 (FIG. 10) and a block diagram illustrating a configuration example of a feature amount extraction unit 61 (FIG. 15) of the display control device 16.
  • the feature amount extraction unit 41 of the annotation assignment apparatus 14 includes an image acquisition unit 171, an image feature amount extraction unit 172, a base space data storage unit 173, a dimension compression unit 174, an explanatory text acquisition unit 181, Text feature quantity extraction unit 182, basis space data storage unit 183, dimension compression unit 184, synchronization unit 191, basis space data storage unit 261, dimension compression unit 262, basis space data storage unit 271, dimension compression unit 272, speech acquisition unit 281, an audio feature amount extraction unit 282, a base space data storage unit 283, and a dimension compression unit 284.
  • the image feature quantity extraction unit 172 includes a first image feature quantity extraction unit 172 1 , a second image feature quantity extraction unit 172 2 , and a third image feature quantity extraction unit 172 3 .
  • the base space data storage unit 173 includes the base space data obtained by the base space learning unit 151 in FIG. 33
  • the base space data storage unit 183 includes the base space learning unit in FIG.
  • the base space data storage unit 261 determines the base space data obtained by the base space learning unit 201 in FIG. 33
  • the base space data storage unit 271 stores the base space data in the base space learning unit 201 in FIG.
  • the base space data storage unit 283 stores the base space data obtained by the base space learning unit 221 shown in FIG. 33, respectively.
  • Image acquisition unit 31 first image feature amount extraction unit 102 1 , second image feature amount extraction unit 102 2 , third image feature amount extraction unit 102 3 , dimension compression unit 153, explanation text acquisition unit 33, text feature amount Extraction unit 34, dimension compression unit 163, synchronization unit 35, dimension compression unit 203, dimension compression unit 213, speech acquisition unit 102, speech feature quantity extraction unit 103, and dimension compression 223 and the same processing, respectively is performed, thereby, a first image characteristic amount after the dimension compression to third image feature amount, audio feature and the annotation for sequence constructed containing the text feature quantity.
  • an annotation sequence is configured using dummy data as a topic label as a text feature amount after dimension compression.
  • FIG. 35 is a block diagram showing a configuration example of another embodiment of a recorder to which the information processing apparatus of the present invention is applied.
  • the recorder in FIG. 35 (hereinafter also referred to as a browsing recorder) is, for example, an HD (Hard Disk) recorder or the like, and is shot with a television broadcast program, content provided via a network such as the Internet, a video camera, or the like. It is possible to record (record) (store) various contents such as the selected contents.
  • HD Hard Disk
  • the browsing recorder includes an operation unit 301, a control unit 302, a content acquisition unit 310, a content storage unit 311, a learning device 312, an annotation model storage unit 313, and a browsing control device 314.
  • the operation unit 301 is a button provided on the browsing recorder housing of FIG. 35, a remote commander for remotely controlling the browsing recorder, or the like.
  • the operation unit 301 is operated by the user and sends an operation signal corresponding to the operation to the control unit 302. Supply.
  • the control unit 302 controls the content acquisition unit 310 or the browsing control unit 314 according to the operation of the operation unit 301 or the like.
  • the content acquisition unit 310 acquires content including an image such as a television broadcast program and supplies the content to the content storage unit 311.
  • the content acquisition unit 310 can be configured with a network I / F (Interface) such as a tuner, STB (Set Top Box), NIC (Network Interface Card), and the like. Acquired via a transmission medium (not shown) such as digital broadcasting, satellite digital broadcasting, CATV network, Internet or other networks.
  • a network I / F Interface
  • STB Set Top Box
  • NIC Network Interface Card
  • the content acquisition unit 310 can be configured with, for example, a drive that drives a recording medium.
  • the content is stored in a hard disk built in the video camera, a memory card removed from the video camera, or the like. Obtained from a recording medium such as a semiconductor memory, a tape-shaped recording medium, or a disk-shaped recording medium.
  • the content acquisition unit 310 includes a tuner that receives a television broadcast program (broadcast program).
  • the content storage unit 311 stores (records) the content from the content acquisition unit 310.
  • the storage of the content in the content storage unit 311 becomes the recording of the content, and the recorded content (the content stored in the content storage unit 311) is reproduced in accordance with, for example, the operation of the operation unit 301 by the user.
  • the learning device 312 is configured in the same manner as the learning device 12 of FIG. 1, and the content stored in the content storage unit 311 is structured in a self-organizing manner in a predetermined feature amount space, and the content structure (time-space structure) is determined. Perform learning (statistical learning) to find a model to represent.
  • the learning device 312 selects, from among the contents stored in the content storage unit 311, the content that can acquire the explanatory text that explains the content of the content image as the learning content used for learning the annotation model. To do.
  • the learning device 312 extracts the image feature amount of each frame of the learning content image, and word frequency information regarding the frequency of occurrence of each word in the explanatory text explaining the content of the learning content image. Extracted as a text feature amount of the explanatory text
  • the learning device 312 configures an annotation sequence that is a multi-stream including image feature amounts and text feature amounts extracted from the learning content, and using the annotation sequence, an annotation model that is a multi-stream HMM. To learn. *
  • the learning device 312 When the learning device 312 learns the annotation model, the learning device 312 supplies the learned annotation model to the annotation model storage unit 313.
  • the annotation model storage unit 313 stores the annotation model supplied from the learning device 312.
  • the browsing control device 314 uses the annotation model stored in the annotation model storage unit 313 and is temporally continuous from the target content from which scenes are extracted from the content stored in the content storage unit 311.
  • a scene that is a collection of frames equal to or more than the frame is extracted, and representative images of the scene are arranged and displayed in the order of display time (reproduction time).
  • the browsing control device 314 divides the target content into scenes so that the user can quickly grasp the details of the target content, and displays the representative images of the frames constituting each scene and the annotations. Display in order of display time.
  • the browsing control device 314 uses keywords input from the target content by operating the operation unit 301 so that the scene in which the user is interested can be quickly searched from the target content.
  • 36 to 39 are diagrams for explaining the outline of the processing performed by the browsing recorder of FIG.
  • a television broadcast news program includes corners (scenes) of a plurality of news topics such as economic news, social news, and sports news.
  • the recorder obtains (displays) an outline of the broadcast start time, broadcast end time, performers, and program contents by acquiring EPG (Electronic Program Guide) data. Can do.
  • EPG Electronic Program Guide
  • the EPG data cannot be used in the recorder to indicate what news topic has been picked up from what hour and for what, for example, in a news program of a certain channel (broadcast station) on a certain day.
  • the recorder in the browser built in the recorder, whether or not the program has been recorded is displayed on the EPG, and when the recorded program is designated on the EPG, the recorded program is displayed. It is possible to perform so-called cueing, in which playback is started from the beginning of the program.
  • the recorder cannot cue a predetermined corner of a recorded program.
  • the recorder since the recorder handles the program in units of programs and not in units of corners, it is possible to display an overview of the program “whole” and to cue the program, but the program corners can be displayed. It is not possible to display the outline of each item or find the corner.
  • scene browsing By the way, how to browse a program (hereinafter also referred to as scene browsing) that can divide the program into scenes such as corners, and can recognize the outline of each scene. It would be convenient if it could be provided to.
  • the user is asked to input a word expressing the content of the desired corner as a keyword.
  • a method of detecting a frame in which a subtitle including a keyword input by the user is displayed and starting reproduction from the frame can be considered.
  • the method of detecting a frame in which a caption including a keyword input by the user is displayed from a recorded program cannot be applied to a program without caption. Further, even if a caption is displayed in a corner desired by the user, the corner (frame) desired by the user is not detected unless the keyword input by the user is included in the caption.
  • a keyword input by the user is detected from the audio of the recorded program, and playback is started from a frame in which the audio including the keyword is spoken, so that the user can find a desired corner. A way to do this is conceivable.
  • the corner (the user's desired corner) (if the keyword input by the user is not spoken in the voice of the corner desired by the user) Frames) are not detected.
  • a scene that is a collection of one or more frames that are temporally continuous is extracted from the target content from which the scene is extracted, and a representative image of the scene is extracted.
  • FIG. 36 is a diagram for explaining the outline of learning of the annotation model by the browsing recorder of FIG.
  • control unit 302 sets the genre of the content to be subjected to scene browsing to the browsing genre.
  • control unit 302 sets the browsing genre according to the operation of the operation unit 301 by the user.
  • news as a genre is set as a browsing genre.
  • the content acquisition unit 310 recognizes the genre of each program from EPG data, and records a program that matches the news whose genre is the browsing genre. That is, as a result, a news program whose genre matches the browsing genre is stored in the content storage unit 311.
  • the learning device 312 matches the news whose genre is the browsing genre in the recorded program recorded (broadcast) in the past certain period, stored in the content storage unit 311.
  • a recorded program including subtitle text is read as learning content used for learning an annotation model, and learning of the annotation model (content structure learning) as a multi-stream HMM is performed using the learning content shown in FIG. It carries out similarly to the learning apparatus 12.
  • the learning apparatus 312 supplies the learned annotation model to the annotation model storage unit 313 for storage.
  • FIG. 37 is a diagram for explaining an outline of scene extraction from the target content using the annotation model by the browsing recorder of FIG.
  • the browsing control device 314 is a recorded program that matches the news whose genre is the browsing genre among the recorded programs recorded (broadcast) in the past certain period, stored in the content storage unit 311. 1 is read out as target content regardless of the presence or absence of subtitle text, and the annotation adding process for adding annotation to the target content using the annotation model stored in the annotation model storage unit 313 is performed as shown in FIG. The same as 14 is performed.
  • the browsing control apparatus 314 configures an annotation sequence for the target content, and the maximum likelihood state in which the annotation sequence for the target content is observed in the annotation model (multi-stream HMM) stored in the annotation model storage unit 313. A series is obtained (state recognition is performed).
  • the browsing control device 314 assigns an annotation (to be a word) to each frame (each time) of the target content based on the maximum likelihood state sequence in which the annotation sequence of the target content is observed.
  • the browsing control device 314 extracts, from the target content, a group of one or more frames that are given the same annotation and are temporally continuous as a scene, and thereby classifies the target content into scenes. To do.
  • FIG. 38 is a diagram for explaining an overview of display control by the browsing recorder of FIG. 35 for displaying the representative images of the scene in order of display time.
  • the browsing control device 314 classifies all the target contents into scenes, the representative images of the scenes are displayed side by side in order of display time for each target content.
  • the browsing control device 314 For each scene of the target content, the browsing control device 314 generates, for example, a thumbnail of the first frame of the scene as a representative image, and displays the representative image of each scene of the target content in the order of display time, for example, To an image arranged in one direction such as a downward direction (vertical direction) (hereinafter also referred to as a time-order summary display image).
  • the browsing control device 314 displays the EPG on a display (not shown), and displays the time-order summary display image of the target content in the program column of the target content in the program column of the EPG.
  • the length in the vertical direction (time direction) of the representative image of each scene of the time order summary display image can be proportional to the time of the scene (the number of frames constituting the scene). it can.
  • a word as an annotation given to a frame constituting the scene in a balloon shape or the like. Can be displayed.
  • the browsing control apparatus 314 creates a meta genre dictionary that associates words as annotations with news genres (hereinafter also referred to as meta genres) when the words are used in news programs as target content.
  • a meta genre can be displayed for the representative image of each scene of the time-order overview display image prepared together with the annotation or instead of the annotation.
  • a time-ordered overview display image is displayed in each scene of the time-ordered overview display image. Along with the assigned annotation, it is displayed on the EPG.
  • the user can easily recognize the outline of the scenes constituting the news program recorded in the past certain period by looking at the time-order outline display image and the annotation.
  • the browsing control apparatus 314 classifies target content into scenes by extracting, from the target content, a collection of one or more frames that are given the same annotation and that are temporally continuous, as a scene. Therefore, there is a high probability that the scene matches the corner of the news program that is the target content, such as economic news, social news, sports news, or the like.
  • the user when the user is interested in sports news, the user can grasp how long a sports news corner is broadcast from that time in a news program.
  • the browsing control device 314 can detect, for example, the start time and end time of each scene based on the top (frame) of the target content when the target content is divided into scenes.
  • a representative image of a certain scene among the representative images constituting the time-order overview display image of the news program displayed on the EPG is designated by the operation of the operation unit 301 by the user.
  • the scene can be reproduced from the start time. That is, it is possible to cue a certain corner (scene) of a news program.
  • the browsing control device 314 displays, as an overview display image of the news program in time order, an image in which representative images of all the scenes (corners) of the news program are arranged, as well as the user of the scenes (corners) of the news program.
  • the operation unit 301 By operating the operation unit 301, it is possible to generate an image in which representative images of corners whose contents are expressed by the input keyword are arranged and displayed on the EPG.
  • FIG. 39 is a diagram for explaining an overview of display control for displaying a time-order summary display image in which representative images of only corners (scenes) whose contents are expressed by a keyword input by a user are arranged in order of display time. .
  • the user can input a search query including a keyword by operating the operation unit 301.
  • search query can include AND search expressions and OR search expressions as described with reference to FIGS.
  • the browsing control device 314 stores a recorded program that matches the news whose genre is the browsing genre among the recorded programs recorded in the content storage unit 311 in the past certain period.
  • Frame search processing for retrieving a keyword frame that is a frame whose content matches a keyword included in a search query input by the user from the target content using the annotation model read as the target content and stored in the annotation model storage unit 313 Is performed in the same manner as the frame search device 15 of FIG.
  • the browsing control device 314 extracts a set of one or more temporally continuous keyword frames from the keyword frames searched from the target content as a scene, and thereby classifies the keyword frames of the target content into scenes. To do.
  • the browsing control apparatus 314 selects the first keyword frame among the keyword frames of the target content as the attention frame, and includes the attention frame as a frame constituting the first scene in the first scene.
  • the browsing control device 314 selects the next keyword frame among the keyword frames of the target content as a new attention frame, and the attention frame is the keyword frame that was the attention frame immediately before (hereinafter also referred to as the immediately preceding frame). ) And the display time are continuous, that is, in the target content, if the frame of interest is the next frame of the immediately preceding frame, the frame of interest is set as the frame constituting the first scene. Include in the second scene.
  • the browsing control device 314 selects the next keyword frame among the keyword frames of the target content as a new attention frame, and while the attention frame is a keyword frame whose display time is continuous with the previous frame.
  • the frame of interest is repeatedly included in the first scene as a frame constituting the first scene.
  • the browsing control device Reference numeral 314 includes the frame of interest in the second scene as a frame constituting the second scene as a new scene.
  • the browsing control device 314 divides the keyword frame of the target content into one or more scenes.
  • the browsing control device 314 displays the representative images of the scenes arranged in order of display time for each target content.
  • the browsing control device 314 generates, for example, a thumbnail of the first frame of the scene as a representative image for each scene configured from the keyword frame of the target content, and displays the representative image of each scene of the target content.
  • time-order summary display images arranged in one direction such as from top to bottom are generated in time order.
  • the browsing control device 314 displays the EPG on a display (not shown), and displays the time-order summary display image of the target content in the program column of the target content in the program column of the EPG.
  • the length in the vertical direction of the representative image of each scene of the time order summary display image can be proportional to the time of the scene. Furthermore, as in the case of FIG. 38, for the representative image of each scene of the time order summary display image, it is possible to display a word or metagenre as an annotation given to a frame constituting the scene.
  • FIG. 40 is a block diagram illustrating a configuration example of the browsing control device 314 of FIG.
  • the browsing control device 314 includes an annotation assignment unit 331, a frame search unit 332, a scene configuration unit 333, and a display control unit 334.
  • the annotation assigning unit 331 sequentially selects the target content stored in the content storage unit 311 as the content of interest.
  • the annotation assigning unit 331 uses the annotation model stored in the annotation model storage unit 313 to assign an annotation to each frame of the content of interest, similarly to the annotation assignment device 14 of FIG.
  • the annotation word information in which the annotation given for each frame is associated with the frame number of the frame (t of the t-th frame) is supplied to the scene composition unit 333.
  • the frame search unit 332 sequentially selects the target content stored in the content storage unit 311 as the content of interest.
  • the frame search unit 332 uses the annotation model stored in the annotation model storage unit 313 to search for keyword frames from the content of interest, and the keyword frames are sorted in chronological order. Is provided to the scene composition unit 333.
  • the scene configuration unit 333 classifies the content of interest stored in the content storage unit 311 into scenes using the annotation word information supplied from the annotation adding unit 331 and the keyword digest supplied from the frame search unit 332 (attention) Content scene).
  • the scene configuration unit 333 generates a representative image of each scene of the content of interest, generates a time-order summary display image in which the representative images of the scenes are arranged in the order of display time from top to bottom, and performs display control. To the unit 334.
  • the scene configuration unit 333 detects the start time and end time (hereinafter also referred to as scene time information) of each scene when the content of interest is divided into scenes, and together with the time order summary display image, This is supplied to the display control unit 334.
  • the display control unit 334 displays an EPG on a display (not shown), and displays a time-order summary display image of the content of interest in the program column of the content of interest in the program column of the EPG.
  • the display control unit 334 uses the annotation word information obtained by the annotation assigning unit 331 to display words as annotations attached to the frames constituting the scene, for example, as shown in FIG.
  • the display control unit 334 designates a representative image of a certain scene among the representative images constituting the time-order overview display image displayed on the EPG by the operation of the operation unit 301 (FIG. 35) by the user.
  • the content including the scene is recognized as the cueing content to be cueed, and the start time of the scene to be cueed is determined from the scene configuration unit 333. Recognize from scene time information.
  • the display control unit 334 performs playback control of reading the cue content from the content storage unit 311 and playing it from the scene where cueing is performed.
  • FIG. 41 is a flowchart for explaining the setting process performed by the browsing recorder of FIG.
  • step S211 the control unit 302 (FIG. 35) sets a learning start time that is a time to start learning the annotation model, and the process proceeds to step S212.
  • a predetermined time such as 22:00 may be set as the default time, and the default time may be set as the learning start time. it can.
  • the learning start time can be set according to the user's operation. That is, for example, when the user inputs a time to be a learning start time by operating the operation unit 301 (FIG. 35), the time can be set as the learning start time.
  • the learning start time for example, a different time can be set for each day of the week.
  • the learning start time it is possible to display a calendar and have the user input a different time for each day as the learning start time.
  • the learning start time it is possible to set the time input as the learning start time in the past by operating the operation unit 301 by the user.
  • step S212 the control unit 302 sets a learning content acquisition period for acquiring learning content, and the process proceeds to step S213.
  • a period from a time that is one week or several weeks after the learning start time to the learning start time (immediately before) is set as the default period, and the default period is used as the learning content.
  • the acquisition period can be set.
  • control unit 302 can set a period before the learning start time according to the operation of the operation unit 301 by the user as the learning content acquisition period.
  • step S213 the control unit 302 sets a target content acquisition period for acquiring target content for scene extraction in the browsing target content, that is, the browsing control device 314 (FIGS. 35 and 40). The process proceeds to step S214.
  • control unit 302 sets a period from a time that is one week after the learning start time to the learning start time (immediately before) as a default period, and sets the default period as the target content acquisition period. Set to.
  • control unit 302 can set the target content acquisition period in accordance with the operation of the operation unit 301 by the user.
  • control unit 302 sets a period overlapping with the learning content acquisition period as the target content acquisition period. Therefore, the target content acquisition period is included in the learning content acquisition period.
  • step S214 the control unit 302 sets the content broadcast during the learning content acquisition period among the news content (news program) whose genre is the browsing genre as the recording target content that is the content to be recorded. .
  • the control unit 302 makes a recording reservation for the content to be recorded, that is, a channel on which the content to be recorded is broadcast, a recording start time to start recording (broadcast start time of the content to be recorded), and end the recording
  • the recording end time to be set (the broadcast end time of the content to be recorded) is set, and the setting process ends.
  • the news content (news program) whose genre is the browsing genre is broadcast during the learning content acquisition period.
  • the news program that is broadcast during the target content acquisition period among the news content (news program) whose genre is the browsing genre is also set as the recording target content.
  • the content to be recorded from the news content whose genre is the browsing genre can be set according to the operation of the operation unit 301 by the user.
  • news content (news program) broadcast in the learning content acquisition period on the EPG and whose genre is a browsing genre is displayed on a display (not shown), and from the EPG, the user
  • the news program selected by operating the operation unit 301 can be set as the content to be recorded.
  • FIG. 42 is a flowchart for explaining content acquisition-related processing performed by the browsing recorder of FIG.
  • processing related to acquisition of recording target content is performed.
  • step S221 the control unit 302 determines whether or not the current time is the recording start time of any recording target content.
  • step S221 If it is determined in step S221 that the current time is the recording start time, the process proceeds to step S222, and the control unit 302 records the content to be recorded until the recording end time. And the process returns to step S221.
  • the content acquisition unit 310 performs reserved recording of the content to be recorded under the control of the control unit 302 and stores it in the content storage unit 311.
  • step S221 determines whether the current time is not the recording start time. If it is determined in step S221 that the current time is not the recording start time, the process skips step S222 and proceeds to step S223, where the control unit 302 is stored (recorded) in the content storage unit 311. It is determined whether there is content that satisfies the erasure condition.
  • the erasure condition is a condition for erasing the content, and for example, it can be adopted that it was broadcast (recorded) before the learning content acquisition period.
  • the content stored in the content storage unit 311 includes content broadcast before the learning content acquisition period, it is determined that there is content satisfying the erasure condition.
  • step S223 If it is determined in step S223 that there is content satisfying the erasure condition among the content stored in the content storage unit 311, the process proceeds to step S224, and the control unit 302 is stored in the content storage unit 311. The content that satisfies the erasure condition is deleted from the stored content, and the process returns to step S221.
  • the control unit 302 does not delete the protected content even if the deletion condition is satisfied.
  • step S223 if it is determined in step S223 that there is no content satisfying the erasure condition in the content stored in the content storage unit 311, the process skips step S224 and returns to step S221.
  • the learning apparatus 312 can extract the feature amount of each frame of the content while performing the reserved recording of the content.
  • the feature amount extracted by the learning device 312 is not only the annotation model learning in the learning device 312 but also the annotation assignment processing in the annotation assignment unit 331 of the browsing control device 314 (FIG. 40) or the frame in the frame search unit 332. It can be used for search processing.
  • the content acquisition unit 310 includes a tuner that receives a television broadcast program.
  • a recording (broadcasting) time is required. Even if there are a plurality of recording target contents with overlapping bands, a plurality of recording target contents with overlapping recording time periods can be recorded up to the number of tuners of the content acquisition unit 310.
  • the content acquisition unit 310 When the number of content to be recorded with overlapping recording time zones exceeds the number of tuners included in the content acquisition unit 310, the content acquisition unit 310 has a number equal to the number of tuners according to a predetermined recording rule. Record the content to be recorded with priority.
  • the content with the earlier recording start time is recorded preferentially, and the content including the caption text is preferentially recorded between the content with the same recording start time. Can be adopted.
  • the user can set the recording priority order for a plurality of recording target contents having overlapping recording time zones by operating the operation unit 301.
  • the content is recorded with the priority set by the user regardless of the recording rule.
  • the recorded content (and its feature amount) can be stored in the content storage unit 311 separately for content including subtitle text and content not including it.
  • the recording target content broadcast during the learning content acquisition period is stored in the content storage unit 311 by the reserved recording, and when the learning start time is reached (the current time), the learning device 312 stores the content storage Among the content of news (news program) stored in the unit 311 and having the browsing genre, content having subtitle text among the content broadcast during the learning content acquisition period is used as learning content. select.
  • content that does not have subtitle text can be selected as learning content, for example, content from which program metadata serving as explanatory text can be obtained from a program metadata service or the like. It is.
  • the learning device 312 after selecting the learning content, configures an annotation sequence from the learning content in the same manner as the learning device 12 in FIG. 1, and uses the annotation sequence to generate a multi-stream HMM. Learn an annotation model.
  • the learning apparatus 312 supplies the learned annotation model to the annotation model storage unit 313 for storage.
  • FIG. 43 is a flowchart for explaining processing (browsing control processing) performed by the browsing control apparatus 314 using the annotation model.
  • the browsing control device 314 starts browsing control processing.
  • step S241 the annotation assigning unit 331 of the browsing control apparatus 314 (FIG. 40) stores the news content (news program) whose genre is the browsing genre stored in the content storage unit 311. All the contents broadcast during the target content acquisition period are selected as target contents, and the process proceeds to step S242.
  • step S242 the annotation assigning unit 331 uses the annotation model stored in the annotation model storage unit 313, in the same manner as the annotation assigning device 14 in FIG. For each target content, the annotation word information including the annotation added to each frame is supplied to the scene configuration unit 333, and the process proceeds to step S243.
  • step S243 the scene composition unit 333 adds the same annotation to each target content stored in the content storage unit 311 based on the annotation word information from the annotation assignment unit 331.
  • a group of frames equal to or more than the frame is extracted as a scene, and thereby the target content is divided into scenes.
  • the scene configuration unit 333 detects scene time information that is the start time and end time of each scene for each target content, and the process proceeds to step S244.
  • step S244 the scene configuration unit 333 generates, for each target content, a representative image of each scene constituting the target content, and the process proceeds to step S245.
  • step S245 for each target content, the scene configuration unit 333 generates a time-order summary display image in which representative images of each scene constituting the target content are arranged in the order of display (playback) time from top to bottom.
  • the scene configuration unit 333 supplies the time order summary display image together with the scene time information and the annotation word information to the display control unit 334, and the process proceeds from step S245 to step S246. .
  • step S246 the display control unit 334 acquires (receives) EPG data, and generates an EPG (image) using the EPG data.
  • the display control unit 334 arranges the time-order summary display image of the target content in the program column of the target content on the EPG, and the representative image of each scene of the time-order summary display image.
  • words as annotations attached to frames constituting the scene are arranged in a balloon shape.
  • the display control unit 334 recognizes the word as the annotation given to the frame constituting the scene from the annotation word information from the scene configuration unit 333.
  • step S246 the display control unit 334 displays the EPG in which the time-order summary display image and the annotation are arranged on a display (not shown), and the process proceeds to step S248.
  • step S248 the display control unit 334 performs reproduction control of the target content.
  • the display control unit 334 specifies a representative image of a certain scene among the representative images constituting the time-order overview display image of the target content displayed on the EPG by the operation of the operation unit 301 by the user. Then, the content including the scene is recognized as the cue content to be cued, and the start time of the scene in which the representative image is designated by the user is recognized from the scene time information from the scene configuration unit 333.
  • the display control unit 334 reads the target content as the cue content from the content storage unit 311 and performs playback control to start playback of the target content from the start time of the scene in which the representative image is designated by the user. .
  • the display control unit 334 displays a keyword input field for inputting a keyword (including a search query) on a display (not shown). Can do.
  • a user can input a keyword (including a search query) by operating the operation unit 301 (FIG. 35), and the browsing control unit 314 inputs the keyword in the keyword input field. Then, for each target content, an image in which representative images of only the corners whose contents are expressed by the keyword input by the user operating the operation unit 301 among the scenes (corners) of the target content is generated is generated. , Display on EPG.
  • FIG. 44 is a flowchart for explaining processing performed by the browsing control device 314 when a user inputs a keyword.
  • the frame search unit 332 of the browsing control device 314 displays the content in step S261.
  • the news content news program
  • the genre is the browsing genre stored in the storage unit 311
  • all of the content broadcast during the target content acquisition period is selected as the target content, and the process proceeds to step S ⁇ b> 262. move on.
  • step S261 the content selected as the target content in step S241 in FIG. 43 among the contents stored in the content storage unit 311 (FIG. 35) is selected as the target content.
  • step S262 the frame search unit 332 uses the annotation model stored in the annotation model storage unit 313 as in the frame search device 15 in FIG. A keyword frame that is a high frame is searched, a keyword digest in which the keyword frames are arranged in time series is generated, and supplied to the scene configuration unit 333 (FIG. 40).
  • step S262 the process proceeds from step S262 to step S263, and the scene configuration unit 333, for each target content, includes one or more frames that are temporally continuous from the keyword frame that forms the keyword digest from the frame search unit 332.
  • a collection (a collection of frames in which display (playback) times are continuous) is extracted as a scene, and thereby the keyword digest of the target content is divided into scenes.
  • the scene configuration unit 333 detects scene time information that is the start time and end time of each scene for each target content, and the process proceeds to step S264.
  • step S264 the scene configuration unit 333 generates, for each target content, a representative image of each scene constituting the keyword digest of the target content, and the process proceeds to step S265.
  • step S265 for each target content, the scene configuration unit 333 displays a time-order summary display image in which the representative images of each scene constituting the keyword digest of the target content are arranged from top to bottom in the display (playback) time order. Generate.
  • the scene configuration unit 333 supplies the time order summary display image together with the scene time information to the display control unit 334 for each target content, and the process proceeds from step S265 to step S266.
  • step S266 the display control unit 334 acquires (receives) EPG data, and generates an EPG (image) using the EPG data.
  • the display control unit 334 arranges a time-order summary display image of the target content in the program column of the target content on the EPG.
  • step S266 the display control unit 334 displays the EPG in which the time-order summary display image is arranged on a display (not shown), and the process proceeds to step S268.
  • step S268 the display control unit 334 controls the reproduction of the target content.
  • the display control unit 334 specifies a representative image of a certain scene among the representative images constituting the time-order overview display image of the target content displayed on the EPG by the operation of the operation unit 301 by the user. Then, the content including the scene is recognized as the cue content to be cued, and the start time of the scene in which the representative image is designated by the user is recognized from the scene time information from the scene configuration unit 333.
  • the display control unit 334 reads the target content as the cue content from the content storage unit 311 and performs playback control to start playback of the target content from the start time of the scene in which the representative image is designated by the user. .
  • the user can designate the program column on the EPG in which the time-order summary display images are arranged by operating the operation unit 301.
  • the display control unit 334 can perform reproduction control for reproducing the keyword digest of the target content corresponding to the program column designated by the user.
  • the keyword frames constituting the keyword digest can be reproduced in chronological order (in the order of display time) or in the descending order of the degree of matching of the keywords.
  • the browsing genre is not limited to news.
  • the time-order summary display image can be displayed alone, not on the EPG. That is, the time-order summary display images of one or more target contents are aligned in the head position (the position of the representative image of the first scene) and the scene representative images constituting the time-order summary display image are aligned (this embodiment).
  • the images can be displayed side by side in a direction orthogonal to the vertical direction (in this embodiment, the horizontal direction).
  • the content used as the learning content and the target content can be a content provided from a server on the Internet in addition to a television broadcast program.
  • FIG. 45 shows a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
  • the program can be recorded in advance on a hard disk 405 or a ROM 403 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 411.
  • a removable recording medium 411 can be provided as so-called package software.
  • examples of the removable recording medium 411 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), a MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
  • the program can be downloaded from the removable recording medium 411 as described above to the computer, downloaded to the computer via a communication network or a broadcast network, and installed in the built-in hard disk 405. That is, the program is transferred from a download site to a computer wirelessly via a digital satellite broadcasting artificial satellite, or wired to a computer via a network such as a LAN (Local Area Network) or the Internet. be able to.
  • a network such as a LAN (Local Area Network) or the Internet.
  • the computer incorporates a CPU (Central Processing Unit) 402, and an input / output interface 410 is connected to the CPU 402 via the bus 401.
  • a CPU Central Processing Unit
  • an input / output interface 410 is connected to the CPU 402 via the bus 401.
  • the CPU 402 executes a program stored in a ROM (Read Only Memory) 403 according to the command. .
  • the CPU 402 loads a program stored in the hard disk 405 into a RAM (Random Access Memory) 404 and executes it.
  • the CPU 402 performs processing according to the flowchart described above or processing performed by the configuration of the block diagram described above. Then, the CPU 402 causes the processing result to be output from the output unit 406 or transmitted from the communication unit 408 via, for example, the input / output interface 410, and further recorded on the hard disk 405 as necessary.
  • the input unit 407 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 406 includes an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, parallel processing or object processing).
  • the program may be processed by one computer (processor), or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、コンテンツへのアノテーションの付与を、容易に行うことができる情報処理装置、情報処理方法、及び、プログラムに関する。 特徴量抽出部21は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、学習用コンテンツの画像の内容を説明する説明テキスト(例えば、字幕のテキスト)において各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。モデル学習部22は、各フレームの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。本発明は、例えば、テレビジョン放送の番組等のコンテンツにアノテーションを付与する場合に適用することができる。

Description

情報処理装置、情報処理方法、及び、プログラム
 本発明は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、コンテンツへのアノテーションの付与を、容易に行い、そのアノテーションを利用したアプリケーションを提供することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。
 ユーザが、放送番組等の画像を含むコンテンツの概要を認識する方法としては、コンテンツのダイジェストを表示する方法がある(例えば、特許文献1,2,3)。
特開2007-163568号公報 特開2008-175994号公報 特開2010-093461号公報
 ユーザがコンテンツの概要を認識する方法としては、コンテンツのダイジェストを表示する方法の他、コンテンツに対して、アノテーションを付与する方法がある。
 そして、現在、コンテンツに対して、アノテーションを容易に付与する技術の提案が要請されている。
 本発明は、このような状況に鑑みてなされたものであり、コンテンツへのアノテーションの付与を、容易に行い、そのアノテーションを利用したアプリケーションを提供することができるようにするものである。
 本発明の一側面の情報処理装置、又は、プログラムは、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出する特徴量抽出手段と、前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うモデル学習手段とを備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。
 本発明の一側面の情報処理方法は、情報処理装置が、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出し、前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うステップを含む情報処理方法である。
 以上のような本発明の一側面においては、学習用コンテンツの画像の各フレームの画像特徴量が抽出されるとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報が、前記説明テキストのテキスト特徴量として抽出され、前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習が行われる。
 なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 本発明の一側面によれば、コンテンツへのアノテーションの付与を、容易に行い、そのアノテーションを利用したアプリケーションを提供することができる。
本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。 学習装置12の構成例を示すブロック図である。 特徴量抽出部21の第1の構成例を示すブロック図である。 字幕CSVデータ、及び、中間データの例を示す図である。 中間データを頻度データに変換する方法を説明する図である。 テキスト特徴量の例を示す図である。 学習装置12がアノテーションモデルの学習を行う学習処理を説明するフローチャートである。 アノテーション付与装置14の構成例を示すブロック図である。 アノテーション付与装置14が対象コンテンツにアノテーションを付与するアノテーション付与処理を説明するフローチャートである。 フレーム検索装置15の構成例を示すブロック図である。 フレーム検索装置15が対象コンテンツからキーワードフレームを検索し、キーワードダイジェストを生成するフレーム検索処理を説明するフローチャートである。 キーワードKW#1,KW#2,KW#3,KW#4のそれぞれに対して求められた、対象コンテンツの各フレームのキーワード合致度の例を示す図である。 AND検索式の演算としての数値minオペレーションを説明する図である。 OR検索式の演算としての数値maxオペレーションを説明する図である。 表示制御装置16の構成例を示すブロック図である。 表示制御部63で描画されるモデルマップの例を示す図である。 修正後のエラー関数Eを用いて得られるモデルマップの表示例を示す図である。 表示制御部63によって表示される、代表画像とアノテーションとが配置されたモデルマップの表示例を示す図である。 モデルマップの一部の拡大図である。 表示制御装置16がモデルマップを表示させる表示制御処理を説明するフローチャートである。 特徴量抽出部21の第2の構成例を示すブロック図である。 特徴量抽出部21の第3の構成例を示すブロック図である。 基底空間学習部161が、テキスト用基底空間の基底空間データとしてのLDAのパラメータを求める、LDAの学習を説明する図である。 次元圧縮部163が、テキスト用基底空間の基底空間データを用いて行う、テキスト特徴量の次元圧縮を説明する図である。 アノテーション付与装置14の特徴量抽出部41の構成例を示すブロック図である。 アノテーション付与装置14によるアノテーション付与処理を説明するフローチャートである。 検索装置15によるフレーム検索処理を説明するフローチャートである。 表示制御装置16によるモデルマップの表示制御処理を説明するフローチャートである。 対象コンテンツに付与されたアノテーションを、潜在トピックごとに表示した表示例を示す図である。 表示制御装置16によるトピックリストの表示制御処理を説明するフローチャートである。 トピックリストを用いたアノテーションの表示形式の例を示す図である。 モデルマップを用いたアノテーションの表示形式の例を示す図である。 特徴量抽出部21の第4の構成例を示すブロック図である。 アノテーション付与装置14の特徴量抽出部41の構成例を示すブロック図である。 本発明の情報処理装置を適用したレコーダの他の一実施の形態の構成例を示すブロック図である。 ブラウジングレコーダによるアノテーションモデルの学習の概要を説明する図である。 ブラウジングレコーダによる、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出の概要を説明する図である。 ブラウジングレコーダによる、シーンの代表画像を、表示時刻順に並べて表示させる表示制御の概要を説明する図である。 ユーザが入力したキーワードによって内容が表現されるコーナ(シーン)のみの代表画像を、表示時刻順に並べた時刻順概要表示画像を表示させる表示制御の概要を説明する図である。 ブラウジング制御装置314の構成例を示すブロック図である。 ブラウジングレコーダで行われる設定処理を説明するフローチャートである。 ブラウジングレコーダで行われるコンテンツ取得関連処理を説明するフローチャートである。 ブラウジング制御装置314が、アノテーションモデルを用いて行う処理(ブラウジング制御処理)を説明するフローチャートである。 ユーザがキーワードを入力した場合にブラウジング制御装置314が行う処理を説明するフローチャートである。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 <第1実施の形態>
 [本発明の情報処理装置を適用したレコーダの一実施の形態]
 図1は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。
 図1のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
 すなわち、図1において、レコーダは、コンテンツ記憶部11、学習装置12、アノテーションモデル記憶部13、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16を有する。
 なお、コンテンツ記憶部11、学習装置12、アノテーションモデル記憶部13、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16は、全体を、1つの装置(筐体)として構成することもできるし、複数の装置に分けて構成することもできる。
 すなわち、例えば、コンテンツ記憶部11、学習装置12、及び、アノテーションモデル記憶部13を、ホームネットワーク上のサーバやインターネット上のサーバ等の1つの装置として構成し、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16のそれぞれは、クライアント等の別の装置として構成することができる。
 コンテンツ記憶部11は、例えば、テレビジョン放送の番組等の、画像を含むコンテンツを記憶(記録)する。コンテンツ記憶部11へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部11に記憶されたコンテンツ)は、例えば、ユーザの操作に応じて再生される。
 なお、コンテンツ記憶部11には、その他、ビデオカメラ等で撮影したコンテンツや、webサーバからダウンロードしたコンテンツ等を記憶させることができる。
 学習装置12は、例えば、コンテンツ記憶部11に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデルを求める学習(統計学習)を行う。
 すなわち、学習装置12は、コンテンツ記憶部11に記憶されたコンテンツのうちの、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、後述するアノテーションモデルの学習に用いる学習用コンテンツに選択する。
 さらに、学習装置12は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、その学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。
 そして、学習装置12は、学習用コンテンツから抽出した画像特徴量、及び、テキスト特徴量を含むマルチストリームを、アノテーション用のアノテーション用系列として用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行い、その学習後のアノテーションモデルを、アノテーションモデル記憶部13に供給する。
 アノテーションモデル記憶部13は、学習装置12から供給されるアノテーションモデルを記憶する。
 アノテーション付与装置14は、アノテーションモデル記憶部13に記憶されたアノテーションモデルを用いて、コンテンツ記憶部11に記憶されたコンテンツのうちの、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与する。
 フレーム検索装置15は、アノテーションモデル記憶部13に記憶されたアノテーションモデルを用いて、コンテンツ記憶部11に記憶されたコンテンツのうちの、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、キーワードフレームを検索する。
 表示制御装置16は、アノテーションモデル記憶部13に記憶されたアノテーションモデルを用いて、コンテンツ記憶部11に記憶されたコンテンツのうちの、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御を行う。
 なお、ここでは、コンテンツ記憶部11に記憶されるコンテンツのデータは、画像、音声、及び、必要な字幕のテキストのデータ(ストリーム)を含むこととする。
 但し、学習用コンテンツは、少なくとも画像が含まれ、かつ、字幕のテキスト等の説明テキストが、何らかの方法で取得することができるコンテンツであればよく、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16で処理の対象となる対象コンテンツは、少なくとも画像が含まれるコンテンツであればよい。
 また、学習用コンテンツ、及び、対象コンテンツは、画像を含まないが、音声を含むコンテンツであって良い。
 [学習装置12の構成例]
 図2は、図1の学習装置12の構成例を示すブロック図である。
学習装置12は、特徴量抽出部21、及び、モデル学習部22を有する。
 特徴量抽出部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションモデルの学習に用いるコンテンツを、学習用コンテンツとして選択し、コンテンツ記憶部11から取得する(読み出す)。
 ここで、特徴量抽出部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、字幕のテキストを含むコンテンツ等の、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択する。
 説明テキストとしては、コンテンツに含まれる字幕のテキストの他、放送番組のコーナごとの放送開始時刻、放送終了時刻、出演者、及び、コーナの内容の要約等のメタデータを、放送番組の終了後に配信する有料サービス(以下、番組メタデータサービスともいう)のサービス提供者が提供するメタデータや、ユーザがキーボード等を操作することによって入力する、コンテンツを説明するテキスト等を採用することができる。
 また、特徴量抽出部21は、例えば、所定のカテゴリに属する1以上のコンテンツを、1つのアノテーションモデルの学習に用いる学習用コンテンツとして選択する。
 所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組(タイトルが同一の、いわゆるシリーズものの番組)等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。
 カテゴリとなるジャンルについては、例えば、スポーツ番組や、ニュース番組、音楽番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。
 また、例えば、サッカーの試合の番組であれば、チャンネル(放送局)が異なるごとに、異なるカテゴリに属するコンテンツに分類することができる。
 なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図1のレコーダに、あらかじめ設定されていることとする。
 また、コンテンツ記憶部11に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。
 ここで、学習装置12は、アノテーションモデルの学習を、カテゴリごとに行う。図1のアノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16でも、対象コンテンツの処理を、その対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを用いて行う。但し、以下では、カテゴリについての説明は、適宜、省略する。
 特徴量抽出部21は、コンテンツ記憶部11からの学習用コンテンツに含まれる画像の各フレームの特徴量である画像特徴量を抽出して、モデル学習部22に供給する。
 ここで、特徴量抽出部21は、例えば、学習用コンテンツのフレームを、順次、注目フレームとして、注目フレームを、複数の小領域であるサブ領域に分割する。
 さらに、特徴量抽出部21は、例えば、各サブ領域のサブ領域特徴量を抽出し、注目フレームのサブ領域特徴量をコンポーネントとするベクトルを、注目フレームの画像特徴量として、モデル学習部22に供給する。
 サブ領域特徴量としては、サブ領域の画素値(例えば、RGB成分や、YUV成分等)を用いて、サブ領域の大域的な特徴量が求められる。
 ここで、サブ領域の大域的な特徴量とは、サブ領域を構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。
 大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。
 なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な(変化を吸収するような)(Robustな)特徴量であれば良い。そのような特徴量としては、例えば、HLCA(局所高次相関)や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。
 HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている(Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字)。
 以上のような、サブ領域特徴量をコンポーネントとするベクトルである画像特徴量は、局所的な変化(サブ領域内で起こる変化)に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ(鋭敏に違いを見分ける性質)であるような特徴量となる。
 このような画像特徴量によれば、フレーム間のシーン(内容)の類似性を、適切に判定することができる。例えば、「浜辺」のシーンは、フレームの上方に「空」があり、中央に「海」があり、画面下方に「砂浜」があればよく、「砂浜」のどこに人がいるかや、「空」のどこに雲があるか等は、シーンが「浜辺」のシーンであるかどうかに関係がない。サブ領域特徴量をコンポーネントとするベクトルである画像特徴量は、このような観点からシーンの類似性を判定する(シーンを分類する)のに適しており、以下、適宜、シーン特徴量ともいう。
 特徴量抽出部21は、コンテンツ記憶部11からの学習用コンテンツに含まれる画像の各フレームの画像特徴量(シーン特徴量)を抽出する他、その学習用コンテンツの説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出し、モデル学習部22に供給する。
 なお、特徴量抽出部21は、学習用コンテンツに、字幕のテキストが含まれている場合には、その字幕のテキストを、説明テキストとして採用する。
 また、特徴量抽出部21は、外部から、説明テキストが入力される場合、すなわち、例えば、番組メタデータサービスのサービス提供者から、番組のメタデータが提供される場合や、ユーザがキーボード等を操作することによって、学習用コンテンツを説明するテキストが入力される場合には、そのサービス提供者からのメタデータや、ユーザからのテキストを、説明テキストとして採用することができる。
 その他、特徴量抽出部21では、学習用コンテンツに含まれる音声の音声認識を行い、その音声認識の結果であるテキストを、説明テキストとして採用することができる。
 ここで、以下では、説明を簡単にするために、説明テキストとしては、コンテンツに含まれる字幕のテキストを採用することとする。
 モデル学習部22は、特徴量抽出部21から供給される学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームを、コンテンツにアノテーションを付与するためのアノテーション用のアノテーション用系列として、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
 そして、モデル学習部22は、学習後のアノテーションモデルを、アノテーションモデル記憶部13に供給して記憶させる。
 ここで、HMMは、最初に、状態siにいる初期確率πi、状態siから状態sjに状態遷移する状態遷移確率aij、及び、状態siから、所定の観測値oが観測(出力)される出力確率分布bi(o)で規定される。
 出力確率分布bi(o)としては、観測値oが離散値(多項分布)である場合には、確率となる離散値(の分布)が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値(平均ベクトル)と分散(共分散行列)とで定義されるガウス分布等を採用することができる。
 HMMの学習は、例えば、EM(Expextation Maximization)アルゴリズムに基づくパラメータ推定方法であるBaum-Welchの再推定法によって行うことができる。
 なお、アノテーションモデルとして、エルゴディック(Ergodic)型のHMM(状態遷移に制約がないHMM)を採用する場合には、HMMの状態数が多いと、HMMのパラメータ(初期確率πi、状態遷移確率aij、及び、出力確率分布bi(o))の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。
 そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、アノテーションモデルとしては、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。
 ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造(状態遷移が疎らな構造)である。
 なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも1つ存在し、また、自己遷移は存在することとする。
 上述したように、モデル学習部22は、特徴量抽出部21から供給される学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を、例えば、Baum-Welchの再推定法によって行う。
 マルチストリームHMMでは、観測値の複数の系列(ストリーム)であるマルチストリームが観測される。
 そして、マルチストリームHMMでは、マルチストリームを構成する個々の系列(ストリーム)(以下、構成要素系列ともいう)に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み(以下、系列重みともいう)を設定することができる。
 系列重みにいついては、マルチストリームHMMの学習時に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。
 また、マルチストリームHMMを用いた認識時(最尤状態系列を求めるとき)に、重要視しない構成要素系列に対して、小さな系列重みを設定することで、その構成要素系列の影響を(ほとんど)受けない認識結果を得ることができる。
 なお、マルチストリームHMMの詳細は、例えば、田村 哲嗣, 岩野 公司, 古井 貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。
 上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。
 マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式(1)に示すように、マルチストリームを構成する各構成要素系列o[m]の出力確率分布b[m]j(o[m])に、事前に設定した系列重みWmを考慮して、マルチストリーム全体の出力確率分布bj(o[1],o[2],・・・,o[M])を計算する点である。
Figure JPOXMLDOC01-appb-M000001
                        ・・・(1)
 ここで、式(1)において、Mは、マルチストリームを構成する構成要素系列o[m]の数(ストリーム数)を表し、系列重みWmは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o[m]の系列重みを表す。
 いまの場合、モデル学習部22で学習に用いられるマルチストリームであるアノテーション用系列は、画像特徴量の系列o[1]とテキスト特徴量の系列o[2]との2つの構成要素系列で構成される。
 この場合、系列重みW1及びW2としては、例えば、いずれも、0.5を採用することができる。
 いま、例えば、1個目の構成要素系列o[1]である画像特徴量として、サブ領域特徴量をコンポーネントとするベクトルを採用するとともに、2個目の構成要素系列o[2]であるテキスト特徴量として、各単語の頻度(頻度そのもの、又は、頻度を正規化した値)を採用することとする。
 この場合、1個目の構成要素系列o[1]である画像特徴量は、連続値のベクトルであり、出力確率分布(観測モデル)b[1]j(o[1])として、例えば、平均値(平均ベクトル)がμ[1]jで、分散(共分散行列)がσ2 [1]jのガウス分布N(μ[1]j,σ2 [1]j)が用いられる。
 また、2個目の構成要素系列o[2]であるテキスト特徴量は、各単語の頻度(頻度そのもの、又は、頻度を正規化した値)の多項分布であり、出力確率分布b[2]j(o[2])として、多項分布が用いられる。
 以上のような2つの構成要素系列o[1]及びo[2]で構成されるアノテーション用系列を用いたマルチストリームHMMの学習、すなわち、Baum-Welchの再推定法では、E(Expextation)ステップにおいて、初期確率πi、状態遷移確率aij、及び、式(1)に従って求められる出力確率分布bj(o[1],o[2])を用いて、h番目の学習用コンテンツについて、時刻t(学習用コンテンツの第tフレーム(先頭からtフレーム目))に、状態jにいる状態確率γ(h) t,jが、単一の系列を用いるHMMの学習の場合と同様にして求められる。
 また、M(Maximization)ステップでは、Eステップで求められた状態確率γ(h) t,jを用いて、画像特徴量の出力確率分布(観測モデル)b[1]j(o[1])としてのガウス分布の平均値μ[1]j、及び、分散σ2 [1]jが、単一の系列を用いるHMMの学習の場合と同様に、式(2)に従って求められる。
Figure JPOXMLDOC01-appb-M000002
                        ・・・(2)
 ここで、式(2)において、Hは、学習用コンテンツの数(コンテンツ数)を表し、o(h) [1](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームの画像特徴量を表す。
 さらに、Mステップでは、Eステップで求められた状態確率γ(h) t,jを用いて、テキスト特徴量によって頻度が表される各単語の出力確率分布(離散シンボル観測モデル)b[2]jとしての多項分布が、多項分布を観測モデル(出力確率分布)として有するHMMの学習の場合と同様に、式(3)に従って求められる。
Figure JPOXMLDOC01-appb-M000003
                        ・・・(3)
 ここで、式(3)において、o(h) [2](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームのテキスト特徴量である各単語の頻度の多項分布を表し、b[2]jは、状態sjにおいて、各単語が観測される出力確率分布である多項分布を表す。
 なお、多項分布がK個のシンボルの分布を表し、各時刻tに、K個のシンボルのうちの1個のシンボルが観測される場合には、多項分布o(h) [2](t)は、時刻tに観測される1個のシンボルの分布(確率)が1であり、残りのシンボルの分布がすべて0である多項分布となる。
 [特徴量抽出部21の第1の構成例]
 図3は、図2の特徴量抽出部21の第1の構成例を示すブロック図である。
 図3において、特徴量抽出部21は、画像取得部31、画像特徴量抽出部32、説明テキスト取得部33、テキスト特徴量抽出部34、及び、同期部35を有する。
 画像取得部31は、コンテンツ記憶部11に記憶されたコンテンツの中から、説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択して取得する。
 さらに、画像取得部31は、学習用コンテンツから、画像を逆多重化(分離)することにより取得して、画像特徴量抽出部32に供給する。
 画像特徴量抽出部32は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、フレームの内容(シーン)の類似性を判定するのに適した画像特徴量であるシーン特徴量を抽出し、同期部35に供給する。
 説明テキスト取得部33は、例えば、コンテンツ記憶部11から、画像取得部31が取得するのと同一の学習用コンテンツを取得し、その学習用コンテンツから、字幕のテキストを逆多重化することにより取得して、説明テキストとして、テキスト特徴量抽出部34に供給する。
 なお、説明テキスト取得部33では、学習用コンテンツに含まれる字幕のテキストの他、上述したように、番組メタデータサービスのサービス提供者から、番組のメタデータを取得することや、ユーザがキーボード等を操作することによって入力したテキスト、学習用コンテンツに含まれる音声の音声認識を行うことにより得られる音声認識結果としてのテキスト等を、説明テキストとして取得することができる。
 テキスト特徴量抽出部34は、説明テキスト取得部33からの説明テキストとしての字幕のテキストについて、例えば、数秒や数十秒等の所定の時間長の窓を、一定間隔でずらしながら、窓内に表示される字幕のテキストに含まれる単語を、1つの文書として抽出する。
 さらに、テキスト特徴量抽出部34は、文書から、その文書において各単語が出現する頻度を表す多項分布を、テキスト特徴量として抽出し、同期部35に供給する。
 ここで、文書において各単語が出現する頻度を表す多項分布は、単語頻度情報、すなわち、説明テキストにおいて各単語が出現する頻度に関する情報である。
 同期部35は、画像特徴量抽出部32から供給されるシーン特徴量と、テキスト特徴量抽出部34から供給されるテキスト特徴量とを、フレーム単位で同期させて出力する。
 すなわち、シーン特徴量は、フレームごとに得られるので、フレーム単位に存在するが、テキスト特徴量は、文書、つまり、一定間隔でずらされる窓ごとに得られるので、フレーム単位に存在するとは限らない。
 同期部35は、注目する注目フレームから抽出されたシーン特徴量と、例えば、注目フレームに時間的に最も近い位置の窓から得られた(文書から抽出された)テキスト特徴量や、注目フレーム以降の時刻の位置の窓であって、注目フレームに時間的に最も近い位置の窓から得られたテキスト特徴量とのセットが、注目フレームのシーン特徴量とテキスト特徴量とのセットになるように、画像特徴量抽出部32から供給されるシーン特徴量と、テキスト特徴量抽出部34から供給されるテキスト特徴量とを同期させ、モデル学習部22(図2)に出力する。
 [テキスト特徴量の抽出]
 図4ないし図6は、図3のテキスト特徴量抽出部34によるテキスト特徴量の抽出を説明する図である。
 すなわち、図4は、字幕CSVデータ、及び、中間データの例を示す図である。
 説明テキスト取得部33(図3)は、学習用コンテンツから、説明テキストとしての字幕のテキストを含む字幕データ(字幕ストリーム)を取得し、テキスト特徴量抽出部34に供給する。
 テキスト特徴量抽出部34(図3)は、字幕データから、字幕の表示開始時刻と、説明テキストとしての字幕のテキストとを抽出する。
 ここで、図4の字幕CSVデータは、コンテンツに含まれる字幕データを、CSV(カンマ区切り)表現にデコードしたデータである。
 字幕CSVデータの第1列(左から1列目)のデータは、字幕の表示開始時刻としてのPTS(Presentation Time Stamp)であり、第4列のデータは、字幕のテキストである。
 なお、字幕CSVデータのある行の字幕のテキストは、その行の表示開始時刻から、次の行の表示開始時刻の直前まで表示されることとする。
 テキスト特徴抽出部34は、字幕CSVデータの第1列のPTSで表現された表示開始時刻を、例えば、学習用コンテンツの先頭を基準とするミリ秒で表現された時刻に変換する。
さらに、テキスト特徴抽出部34は、字幕CSVデータの第4列の字幕のテキストを形態素解析することにより、字幕のテキストを、単語(形態素)に分節化するとともに、各単語の品詞を求める。
 また、テキスト特徴量抽出部34は、字幕のテキストから分節化された単語の中から、アノテーションに有用な単語を抽出する。
 すなわち、テキスト特徴量抽出部34は、字幕のテキストから分節化された単語の中から、例えば、名詞、動詞、形容詞、及び、副詞等の特定の品詞の単語を、有用な単語の候補として抽出し、さらに、有用な単語の候補から、例えば、ひらがな1文字の単語や、ひらがなだけで構成される単語を削除する。
 そして、テキスト特徴量抽出部34は、残った有用な単語の候補を、有用な単語に確定し、その有用な単語と、ミリ秒で表現された表示開始時刻とのセットを、テキスト特徴量の抽出に用いる中間的な中間データとする。
 ここで、本件発明者が行った、実際のデータを用いた実験によれば、品詞が、名詞、及び、動詞の単語を、有用な単語の候補として抽出し、その有用な単語の候補から、ひらがな1文字の単語、ひらがなだけで構成されている単語、及び、数字を削除することで、アノテーションとして、比較的適切な単語が付与される結果が得られている。
 図5は、中間データを頻度データに変換する方法を説明する図である。
 テキスト特徴量抽出部34は、学習用コンテンツから中間データを求めると、その中間データを頻度データに変換する。
 すなわち、テキスト特徴量抽出部34は、学習用コンテンツの時間軸に沿って、例えば、30秒の時間長の窓(窓関数)を、30秒間隔でずらしていく。そして、テキスト特徴量抽出部34は、学習用コンテンツの中間データに含まれる単語の中から、窓内(窓に対応する時間内)に表示される字幕のテキストに含まれる単語を、1つの擬似的な文書(以下、擬似文書ともいう)として抽出する。
 この場合、学習用コンテンツについて、30秒ごとに、その30秒の間に表示される字幕のテキストに含まれる単語(のうちの有用な単語)を、擬似文書として得ることができる。
学習用コンテンツとして、複数のコンテンツが存在する場合には、テキスト特徴量抽出部34は、その複数のコンテンツごとに、擬似文書を得る。
 なお、テキスト特徴量抽出部34において、擬似文書の抽出に用いる窓の時間長は、30秒に限定されるものではない。
 また、擬似文書の抽出にあたり、窓は、一部がオーバーラップするようにずらすことができる。例えば、30秒の時間長の窓を、15秒間隔でずらすことにより、15秒間ずつオーバラップしながらずれていく窓を実現することができる。
 テキスト特徴量抽出部34は、学習用コンテンツすべてについて、擬似文書を得ると、擬似文書すべてから、重複しないように単語を列挙し、各単語と、その単語にユニークな単語ID(Identification)とを対応付けて登録した単語辞書を生成する。
 なお、擬似文書から生成される単語辞書は、学習用コンテンツの中間データからであっても、生成することができる。
 テキスト特徴量抽出部34は、単語辞書を生成すると、その単語辞書を参照し、各擬似文書について、その擬似文書に出現する単語の頻度を求め、その単語の単語IDと対応付けた頻度データを生成する。
 ここで、単語辞書は、例えば、アノテーションモデル記憶部13に供給され、単語辞書の生成に用いられた学習用コンテンツを用いた学習によって得られるアノテーションモデルとともに記憶される。
 図6は、テキスト特徴量の例を示す図である。
 テキスト特徴量抽出部34は、擬似文書の頻度データを、単語辞書に登録されている各単語の頻度に変換する。
 すなわち、単語辞書に登録されている単語の総数がK個であり、そのうちのk番目の単語の頻度をk番目のコンポーネントとするK次元のベクトルを、登録単語頻度ベクトルということとすると、テキスト特徴量抽出部34は、擬似文書の頻度データを、登録単語頻度ベクトルに変換する。
 ここで、自然言語処理では、文書の特徴量として、BoW(Bag-of-Words)と呼ばれる特徴量が用いられることがあるが、登録単語頻度ベクトルは、BoWと呼ばれる特徴量と等価である。
 テキスト特徴量抽出部34は、擬似文書の頻度データを変換した登録単語頻度ベクトルの各コンポーネントを、そのコンポーネントである頻度の総和で除算し、その除算の結果られるベクトルを、テキスト特徴量として、同期部35に出力する。
 以上のような擬似文書のテキスト特徴量は、擬似文書において、単語辞書に登録されている各単語が出現する頻度(確率)を表す多項分布になっている。
 [学習処理]
 図7は、図2の学習装置12がアノテーションモデルの学習を行う学習処理を説明するフローチャートである。
 学習装置12(図2)では、ステップS11において、特徴量抽出部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、字幕のテキストを含むコンテンツ等の、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択し、処理は、ステップS12に進む。
 ステップS12では、特徴量抽出部12は、コンテンツ記憶部11からの学習用コンテンツに含まれる画像の各フレームから、画像特徴量としてのシーン特徴量を抽出するとともに、コンテンツ記憶部11からの学習用コンテンツに含まれる説明テキストとしての字幕テキストから、各単語が出現する頻度に関する単語頻度情報を、テキスト特徴量として抽出する。
 そして、特徴量抽出部12は、シーン特徴量と、テキスト特徴量とを、フレーム単位で同期させ、モデル学習部22に供給して、処理は、ステップS12からステップS13に進む。
 ステップS13では、モデル学習部22は、特徴量抽出部21からの学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
 そして、モデル学習部22は、学習後のアノテーションモデルを、アノテーションモデル記憶部13に供給して記憶させ、学習処理は終了する。
 以上の学習処理によれば、マルチストリームHMMであるアノテーションモデルにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、番組構成や、カメラワーク等が作り出す構造)が自己組織的に獲得される。
 その結果、学習処理よって得られるアノテーションモデルとしてのマルチストリームHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移(シーンの移り変わり)を表現する。
 そして、アノテーションモデルの状態は、特徴量空間(特徴量抽出部21(図2)で抽出されるシーン特徴量及びテキスト特徴量のそれぞれの軸によって定義される空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。
 したがって、学習処理によれば、特徴量空間が、状態分割される。
 ここで、例えば、コンテンツがクイズ番組である場合には、大雑把には、クイズの出題、ヒントの提示、出演者による解答、正解発表、という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、クイズ番組が進行していく。
 上述の番組の基本的な流れが、コンテンツの構造に相当し、その流れ(構造)を構成する、クイズの出題、ヒントの提示、出演者による解答、正解発表のそれぞれが、コンテンツの構造の要素に相当する。
 また、例えば、クイズの出題から、ヒントの提示への進行等が、コンテンツの構造の要素どうしの間での、時間的な遷移に相当する。
 なお、アノテーションモデルとしてのマルチストリームHMMの各状態は、その状態において、シーン特徴量(のモーダル)と、テキスト特徴量(のモーダル)とのそれぞれが観測される観測モデル(出力確率分布)を有する。
 すなわち、アノテーションモデルの各状態は、各値のシーン特徴量が観測(出力)される出力確率分布と、単語辞書の各単語が観測される頻度(確率)を表す多項分布である出力確率分布とを有する。
 そして、アノテーションモデルの各状態において観測される確率が高いシーン特徴量が抽出される画像と、その状態において観測される確率が高い単語とは、同時に観測されやすいので、ある状態において観測される確率が高い単語は、その状態において観測される確率が高いシーン特徴量が抽出される画像(シーン)の内容を表現している、ということができる。
 したがって、アノテーションモデルの各状態において観測される確率が高い単語は、その状態において観測される確率が高いシーン特徴量が抽出される画像(フレーム)のアノテーションとして利用することができる。
 すなわち、アノテーションモデルによれば、コンテンツへのアノテーションの付与を、容易に行うことができる。
 [アノテーション付与装置14の構成例]
 図8は、図1のアノテーション付与装置14の構成例を示すブロック図である。
 アノテーション付与装置14は、特徴量抽出部41、最尤状態系列算出部42、及び、単語選択部43を有する。
 特徴量抽出部41は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得する(読み出す)。
 ここで、特徴量抽出部41では、対象コンテンツが、例えば、ユーザの操作に従って選択される。また、例えば、コンテンツ記憶部11に記憶されたコンテンツのうちの、まだ、対象コンテンツとして選択されていないコンテンツ(アノテーションが付与されていないコンテンツ)を、対象コンテンツとして選択することもできる。
 コンテンツ記憶部11に記憶されたコンテンツの中から対象コンテンツとして選択するコンテンツは、学習用コンテンツのように、説明テキストを取得することができるコンテンツであってもよいし、説明テキストを取得することができないコンテンツであってもよい。
 対象コンテンツが、説明テキストを取得することができるコンテンツである場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、特徴量抽出部41は、学習装置12の特徴量抽出部21(図2)と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部41は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給する。
 また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部41は、学習装置12の特徴量抽出部21(図2)と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部41は、例えば、0や1等の所定の値の多項分布であるダミーのデータ(テキスト特徴量と同一次元の多項分布)を、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給する。
 最尤状態系列算出部42は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)において、特徴量抽出部41からのアノテーション用系列が観測される最尤状態系列(アノテーション用系列が観測される尤度が最も高いアノテーションモデルの状態の系列)を、例えば、Viterbiアルゴリズムに従って求め、単語選択部43に供給する。
 最尤状態系列は、その最尤状態系列のt番目の状態(になっているアノテーションモデルの状態)において、対象コンテンツの第tフレームが観測されることが、尤もらしいことを表す。
 ここで、マルチストリームHMMであるアノテーションモデルにおいて、ある系列(時系列データ)が観測される最尤状態系列を求めることは、その系列を、マルチストリームHMMを用いて認識(パターン認識)することに相当する。
 また、アノテーション用系列は、対象コンテンツのフレーム単位のシーン特徴量とテキスト特徴量とから構成されるので、対象コンテンツのフレーム単位のサンプル値の系列であり、そのようなアノテーション用系列に対して、最尤状態系列を求めることにより、対象コンテンツの各フレームは、最尤状態系列を構成する各状態に対応付けられる。
 したがって、最尤状態系列によれば、対象コンテンツの第tフレームは、最尤状態系列のt番目の状態に対応付けられるので、対象コンテンツの第tフレームが、最尤状態系列のt番目の状態にクラスタリングされているとみなすことができる。
 なお、アノテーション用系列を構成するテキスト特徴量が、単語頻度情報である場合には、最尤状態系列算出部42は、最尤状態系列を求めるにあたり、式(1)に従って計算する、マルチストリームであるアノテーション用系列の出力確率分布bj(o[1],o[2],・・・,o[M])の系列重みWmを、各構成要素系列o[m]に等分配する値、すなわち、例えば、1/Mとする。
 したがって、アノテーション用系列が、シーン特徴量の構成要素系列o[1]と、テキスト特徴量の構成要素系列o[2]との2種類(2モーダル)で構成される場合、系列重みW1及びW2は、いずれも、0.5にされる。
 また、アノテーション用系列を構成するテキスト特徴量が、ダミーのデータである場合には、最尤状態系列算出部42は、最尤状態系列を求めるにあたり、式(1)に従って計算する、マルチストリームであるアノテーション用系列の出力確率分布bj(o[1],o[2],・・・,o[M])の系列重みWmを、テキスト特徴量の構成要素系列については、0とし、他の構成要素系列については、例えば、1/(M-1)とする。
 ここで、式(1)では、系列重みWmの総和が1になるように、系列重みWmを設定するようになっているが、系列重みWmは、その総和が1以外の値になるように設定してもよい。
 単語選択部43は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部42からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度(出力確率)の多項分布である出力確率分布において、頻度が高い単語(観測される確率が高い単語)、すなわち、例えば、頻度が最も高い単語や、頻度が上位R(>1)位以内の単語を、注目フレームに付与するアノテーション(となる単語)として選択する。
 単語選択部43において、注目フレームについて、アノテーションが選択されることにより、注目フレームにアノテーションが付与される。
 そして、単語選択部43は、対象コンテンツの各フレームに、アノテーションを付与すると、対象コンテンツのフレームごとに付与されたアノテーションを、アノテーション単語情報として出力する。
 単語選択部43が出力するアノテーション単語情報は、例えば、コンテンツ記憶部11に供給され、対象コンテンツに対応付けて記憶される。コンテンツ記憶部11に記憶されたアノテーション単語情報は、例えば、対象コンテンツの再生時に、その対象コンテンツのフレームとともに、そのフレームに付与されるアノテーションを表示するのに用いることができる。
 [アノテーション付与処理]
 図9は、図8のアノテーション付与装置14が対象コンテンツにアノテーションを付与するアノテーション付与処理を説明するフローチャートである。
 ステップS21において、特徴量抽出部41は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS22に進む。
 ステップS22では、特徴量抽出部41は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS22において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、処理は、ステップS23に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部41は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS23からステップS25に進む。
 また、ステップS22において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含まないコンテンツである場合、処理は、ステップS24に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部41は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS24からステップS25に進む。
 ステップS25では、最尤状態系列算出部42は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデル(対象コンテンツのカテゴリに一致するカテゴリの学習用コンテンツを用いて学習が行われたアノテーションモデル)を取得する。
 さらに、最尤状態系列算出部42は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部41からのアノテーション用系列が観測される最尤状態系列を求め、単語選択部43に供給して、処理は、ステップS25からステップS26に進む。
 ステップS26では、単語選択部43は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部42からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、注目フレームに付与するアノテーション(となる単語)を選択する。
 すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部43は、最尤状態系列のt番目の状態において観測される単語の頻度の多項分布において、頻度が高い単語を、第tフレームに付与するアノテーションとして選択し、これにより、第tフレームに、アノテーションが付与される。
 その後、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップS26からステップS27に進み、単語選択部43は、対象コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号(第tフレームのt)とを対応付け、アノテーション単語情報として出力し、アノテーション付与処理は、終了する。
 以上のように、アノテーション付与装置14では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される多項分布において頻度が高い単語を、注目フレームに付与するアノテーションとして選択するので、対象コンテンツへのアノテーションの付与を、容易に行うことができる。
 また、アノテーション付与装置14では、対象コンテンツについて、説明テキストを取得することができる場合(説明テキストが存在する場合)には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合(説明テキストが存在しない場合)には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツ(の各フレーム)に、アノテーションを付与することができる。
 すなわち、例えば、説明テキストとしての字幕のテキストを含む対象コンテンツについては、その対象コンテンツの字幕のテキストに出現しない単語であっても、対象コンテンツの内容を適切に表現する単語が、アノテーションモデルにおいて観測される確率が高い場合には、その単語が、アノテーションとして、対象コンテンツに付与される。
 また、例えば、説明テキストとしての字幕のテキストを含まない対象コンテンツについては、説明テキストが存在しないのにもかかわらず、アノテーションが付与される。
 [フレーム検索装置15の構成例]
 図10は、図1のフレーム検索装置15の構成例を示すブロック図である。
 フレーム検索装置15は、特徴量抽出部51、最尤状態系列算出部52、キーワード合致度算出部53、キーワード供給部54、及び、フレーム選択部55を有する。
 特徴量抽出部51は、コンテンツ記憶部11に記憶されたコンテンツの中から、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツを、例えば、図8の特徴量抽出部41と同様に選択し、コンテンツ記憶部11から取得する(読み出す)。
 すなわち、特徴量抽出部51は、例えば、ユーザの操作に従って、対象コンテンツを選択する。また、特徴量抽出部51は、例えば、コンテンツ記憶部11に記憶されたコンテンツのうちの、まだ、対象コンテンツとして選択されていないコンテンツを、対象コンテンツとして選択する。
 なお、コンテンツ記憶部11に記憶されたコンテンツの中から対象コンテンツとして選択するコンテンツは、学習用コンテンツのように、説明テキストを取得することができるコンテンツであってもよいし、説明テキストを取得することができないコンテンツであってもよい。
 対象コンテンツが、説明テキストを取得することができるコンテンツである場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、特徴量抽出部51は、図8の特徴量抽出部41と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部51は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給する。
 また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部51は、図8の特徴量抽出部41と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出し、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。
 そして、特徴量抽出部51は、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とから構成したアノテーション用系列を、最尤状態系列算出部52に供給する。
 最尤状態系列算出部52は、図8の最尤状態系列算出部42と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)において、特徴量抽出部51からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部53に供給する。
 キーワード合致度算出部53には、最尤状態系列52から、対象コンテンツについての最尤状態系列が供給される他、キーワード供給部54から、所定の単語(群)が、キーワードとして供給される。
 キーワード合致度算出部53は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部52からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布、つまり、注目フレームに対応する状態の出力確率分布において、キーワード供給部54からのキーワードが観測される確率(頻度)を、注目フレームの内容がキーワードに合致しているキーワード合致度として算出し、フレーム選択部55に供給する。
 キーワード供給部54は、例えば、ユーザがキーボード等を操作することにより入力した単語を、対象コンテンツからフレームを検索するためのキーワードとして、そのキーワードを含む、検索を要求する検索クエリ(query)を、キーワード合致度算出部53に供給する。
 フレーム選択部55は、コンテンツ記憶部11から、対象コンテンツを取得し、キーワード合致度選択部53からのキーワード合致度に基づいて、対象コンテンツから、キーワード(検索クエリ)に合致するキーワードフレームを選択する。
 すなわち、フレーム選択部55は、例えば、対象コンテンツから、キーワード合致度選択部53からのキーワード合致度が所定の閾値(以下、検索閾値ともいう)より高いフレームを、キーワードフレームとして選択する。
 そして、フレーム選択部55は、対象コンテンツから選択したキーワードフレームの時系列順の並びを、対象コンテンツのダイジェストであるキーワードダイジェストとして出力する。
 なお、検索閾値は、例えば、あらかじめ設定しておくこともできるし、ユーザの操作に応じて設定することもできる。
 フレーム選択部55が出力するキーワードダイジェストは、例えば、ユーザの操作に応じて再生される。この場合、ユーザは、対象コンテンツのうちの、キーワードが内容を表すシーンだけを、ダイジェストとして、視聴することができる。
 ここで、キーワードダイジェストの再生については、キーワードダイジェストを構成するフレームを、その並び順(時系列順)に再生する他、キーワード合致度が高い順に再生することも可能である。
 [フレーム検索処理]
 図11は、図10のフレーム検索装置15が対象コンテンツからキーワードフレームを検索し、キーワードダイジェストを生成するフレーム検索処理を説明するフローチャートである。
 キーワード供給部55は、例えば、ユーザの操作に応じて、キーワードを含む検索クエリを、キーワード合致度算出部53に供給する。
 また、ステップS31ないしS35において、図9のステップS21ないしS25とそれぞれ同様の処理が行われる。
 すなわち、ステップS31において、特徴量抽出部51は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS32に進む。
 ステップS32では、特徴量抽出部51は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS32において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS33に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部51は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS33からステップS35に進む。
 また、ステップS32において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS34に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部51は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS34からステップS35に進む。
 ステップS35では、最尤状態系列算出部52は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
 さらに、最尤状態系列算出部52は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部51からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部53に供給して、処理は、ステップS35からステップS36に進む。
 ステップS36では、キーワード合致度算出部53は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部52からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、注目フレームのキーワード合致度を求める。
 すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード合致度算出部53は、最尤状態系列のt番目の状態において観測される単語の頻度の多項分布における、キーワード供給部54からの検索クエリに含まれるキーワードの頻度(キーワードが観測される確率)を、第tフレームのキーワード合致度として求める。
 キーワード合致度算出部53は、対象コンテンツのフレームのすべてについて、キーワード合致度を求めると、そのキーワード合致度を、フレーム選択部55に供給して、処理は、ステップS36からステップS37に進む。
 ステップS37では、フレーム選択部55は、コンテンツ記憶部11から、対象コンテンツを取得し、キーワード合致度選択部53からのキーワード合致度に基づいて、対象コンテンツから、キーワード(検索クエリ)に合致するキーワードフレームを選択する。
 すなわち、フレーム選択部55は、例えば、対象コンテンツから、キーワード合致度選択部53からのキーワード合致度が検索閾値より高いフレームを、キーワードフレームとして選択し、そのキーワードフレームの時系列順の並びを、キーワードダイジェストとして出力して、フレーム検索処理を終了する。
 以上のように、フレーム検索装置15では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される単語の多項分布において、キーワードの頻度が検索閾値より高い場合に、注目フレームを、キーワードフレームとして選択するので、そのようなキーワードフレームだけのキーワードダイジェストを再生するという、アノテーションモデルを利用したアプリケーションを提供することができる。
 なお、フレーム検索装置15でも、アノテーション付与装置14と同様に、対象コンテンツについて、説明テキストを取得することができる場合には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツから、キーワードダイジェストを生成することができる。
 ここで、図10及び図11では、検索クエリに、1つのキーワードだけが含まれることとして、フレーム選択部55において、そのキーワードに合致するフレーム(キーワード合致度が検索閾値より高いフレーム)を、キーワードフレームとして、対象コンテンツから検索(選択)するようにしたが、検索クエリには、複数のキーワードからなる検索式を含め、その検索式に合致するフレームを、キーワードフレームとして、対象コンテンツから検索することができる。
 図12ないし図14は、複数のキーワードからなる検索式に合致するフレームを、キーワードフレームとして検索する方法を説明する図である。
 例えば、いま、4つのキーワードKW#1,KW#2,KW#3,KW#4からなる検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)を含む検索クエリが、キーワード供給部54からキーワード合致度算出部53に供給されたとする。
 ここで、AND検索式KW#1 AND KW#2は、キーワードKW#1とKW#2の両方に合致することを表し、OR検索式KW#1 OR KW#2は、キーワードKW#1又はKW#2に合致することを表す。検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)において、括弧()は、そのかっこ内の検索式を優先的に処理することを表す。
 検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)を含む検索クエリについては、キーワード合致度算出部53は、その検索クエリに含まれるキーワードKW#1,KW#2,KW#3,KW#4のそれぞれに対して、対象コンテンツの各フレームのキーワード合致度を求める。
 図12は、キーワードKW#1,KW#2,KW#3,KW#4のそれぞれに対して求められた、対象コンテンツの各フレームのキーワード合致度の例を示す図である。
 図12では、キーワードKW#1に対する対象コンテンツの第tフレーム、第t+1フレーム、第t+2フレーム、第t+3フレーム、第t+4フレーム、及び、第t+5フレームのキーワード合致度は、それぞれ、100,150,20,0,0,0になっている。
 また、キーワードKW#2に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、50,200,30,0,0,0になっている。
 さらに、キーワードKW#3に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、0,0,0,150,40,200になっており、キーワードKW#4に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、0,0,0,200,100,50になっている。
 キーワード合致度算出部53は、キーワードKW#1ないしKW#4のそれぞれに対するキーワード合致度を求めると、検索クエリのAND検索式については、キーワード合致度の数値minオペレーションを行い、検索クエリのOR検索式については、キーワード合致度の数値maxオペレーションを行うことによって、検索クエリ(の検索式)に対するキーワード合致度を求める。
 図13は、AND検索式の演算としての数値minオペレーションを説明する図である。 
 キーワード合致度算出部53は、検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)のAND検索式KW#1 AND KW#2、及び、AND検索式KW#3 AND KW#4のそれぞれに従い、キーワード合致度の数値minオペレーションを行うことによって、AND検索式KW#1 AND KW#2に対するキーワード合致度と、AND検索式KW#3 AND KW#4に対するキーワード合致度とを求める。
 すなわち、キーワード合致度算出部53は、AND検索式KW#1 AND KW#2に従い、対象コンテンツの各フレームについて、キーワードKW#1に対するキーワード合致度と、キーワードKW#2に対するキーワード合致度とのうちの、値が小さい方のキーワード合致度を、AND検索式KW#1 AND KW#2に対するキーワード合致度として選択する。
 同様に、キーワード合致度算出部53は、AND検索式KW#3 AND KW#4に従い、対象コンテンツの各フレームについて、キーワードKW#3に対するキーワード合致度と、キーワードKW#4に対するキーワード合致度とのうちの、値が小さい方のキーワード合致度を、AND検索式KW#3 AND KW#4に対するキーワード合致度として選択する。
 その結果、図13に示すように、第tフレームないし第t+5フレームの、AND検索式KW#1 AND KW#2に対するキーワード合致度は、それぞれ、100,150,100,0,0,0となり、AND検索式KW#3 AND KW#4に対するキーワード合致度は、それぞれ、0,0,0,150,40,50となる。
 その後、キーワード合致度算出部53は、検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)のOR検索式に従い、キーワード合致度の数値maxオペレーションを行うことによって、そのOR検索式に対するキーワード合致度を求める。
 図14は、OR検索式の演算としての数値maxオペレーションを説明する図である。
 キーワード合致度算出部53は、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に従い、対象コンテンツの各フレームについて、AND検索式KW#1 AND KW#2に対するキーワード合致度と、AND検索式KW#3 AND KW#4に対するキーワード合致度とのうちの、値が大きい方のキーワード合致度を、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度として選択する。
 その結果、図14に示すように、第tフレームないし第t+5フレームの、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度、すなわち、検索クエリの検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度は、それぞれ、100,150,100,150,40,50となる。
 キーワード合致度算出部53は、以上のようにして、検索クエリ(の検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4))に対するキーワード合致度を求めると、その検索クエリに対するキーワード合致度を、フレーム選択部55(図10)に供給する。
 フレーム選択部55は、キーワード合致算出部53からの、検索クエリに対するキーワード合致度が検索閾値より高いフレームを、検索クエリに合致するキーワードフレームとして、対象コンテンツから選択する。
 例えば、いま、検索閾値が、90に設定されていることとすると、図14では、第tフレームないし第t+5フレームの中の、検索クエリに対するキーワード合致度が検索閾値より高い第tフレームないし第t+3フレームが、キーワードフレームとして選択される。
 [表示制御装置16の構成例]
 図15は、図1の表示制御装置16の構成例を示すブロック図である。
 表示制御装置16は、特徴量抽出部61、最尤状態系列算出部62、及び、表示制御部63を有する。
 特徴量抽出部61は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを、例えば、ユーザの操作に従って選択し、コンテンツ記憶部11から取得する(読み出す)。
 そして、特徴量抽出部61は、図8の特徴量抽出部41と同様に、対象コンテンツから、画像特徴量としてのシーン特徴量を抽出し、そのシーン特徴量を用いて、アノテーション用系列を構成して、最尤状態系列算出部62に供給する。
 すなわち、対象コンテンツが、説明テキストを取得することができるコンテンツである場合、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給する。
 また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出し、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。
 そして、特徴量抽出部61は、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とから構成したアノテーション用系列を、最尤状態系列算出部62に供給する。
 最尤状態系列算出部62は、図8の最尤状態系列算出部42と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)において、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給する。
 表示制御部63は、例えば、図8の単語選択部43と同様に、最尤状態系列算出部62からの最尤状態系列を用いて、対象コンテンツのフレームに付与されるアノテーションを求め(アノテーションとなる単語を選択し)、図示せぬディスプレイに表示させる。
 すなわち、表示制御部63は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度(出力確率)の多項分布である出力確率分布において、頻度が高い単語(観測される確率が高い単語)を、注目フレームに付与するアノテーション(となる単語)として選択することにより、注目フレームにアノテーションを付与する。
 そして、表示制御部63は、対象コンテンツの各フレームに付与されたアノテーションを、例えば、アノテーションモデルの状態ごとに、ディスプレイに表示させる。
 ここで、対象コンテンツのフレームのうちの、ある状態siに対応するフレーム(最尤状態系列を構成する状態の中に、アノテーションモデルの状態siが存在する場合の、その状態siに対応するフレームすべて)については、その状態siの出力確率分布に基づいて、アノテーションが付与されるので、同一の単語が、アノテーションとして付与される。
 したがって、フレームには、アノテーションモデルの状態の単位で、アノテーションが付与されるので(同一の状態siに対応するフレームには、同一のアノテーションが付与されるので)、表示制御部63では、対象コンテンツの各フレームに付与されたアノテーションを、アノテーションモデルの状態ごとに、ディスプレイに表示させることができる。
 対象コンテンツの各フレームに付与されたアノテーションを、アノテーションモデルの状態ごとに表示する方法としては、例えば、モデルマップを用いる方法がある。
 モデルマップは、アノテーションモデルの状態が配置されるマップであり、表示制御部63は、モデルマップ上の状態の位置の座標である状態座標を求め、その状態座標の位置に、対応する状態を配置したモデルマップを描画する。
 図16は、表示制御部63で描画されるモデルマップの例を示す図である。
 ここで、アノテーションモデルにおいて、対象コンテンツから得られるアノテーション用系列が観測される最尤状態系列(以下、対象コンテンツに対するアノテーションモデルの最尤状態系列ともいう)の先頭を基準とする時刻tの状態(最尤状態系列を構成する、先頭からt番目の状態)を、s(t)と表すとともに、対象コンテンツのフレーム数を、Tと表すこととする。
 この場合、対象コンテンツに対するアノテーションモデルの最尤状態系列は、T個の状態s(1),S(2),・・・,s(T)の系列であり、そのうちのt番目の状態(時刻tの状態)s(t)は、対象コンテンツの時刻tのフレーム(フレームt)に対応する。
 また、アノテーションモデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、アノテーションモデルを構成するN個の状態s1,s2,・・・,sNのうちのいずれかである。
 いま、対象コンテンツに対するアノテーションモデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s1ないしsNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。
 したがって、最尤状態系列が求められることにより、対象コンテンツの各フレームは、アノテーションモデルのN個の状態s1ないしsNのうちのいずれかに対応付けられる。
 対象コンテンツに対するアノテーションモデルの最尤状態系列の実体は、対象コンテンツの各時刻tのフレームが対応する、N個の状態s1ないしsNのうちのいずれかの状態の状態IDの系列である。
 表示制御部63(図15)は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(最尤状態系列を求めるのに用いられたアノテーションモデル)の1つの状態siから他の1つの状態sjへの状態間距離dij *を、1つの状態siから他の1つの状態sjへの状態遷移確率aijに基づいて求める。
 ここで、表示制御部63は、例えば、状態遷移確率aijが所定の閾値(例えば、(1/N)×10-2)より大である場合、状態間距離dij *を、例えば、0.1(小さい値)とし、状態遷移確率aijが所定の閾値以下である場合、状態間距離dij *を、例えば、1.0(大きい値)とする。
 表示制御部63は、アノテーションモデルのN個の状態の任意の状態siから任意の状態sjへの状態間距離dij *を求めると、その状態間距離dij *をコンポーネントとするN行N列の行列(状態間距離行列)を用いて、状態座標Yiを求める。
 すなわち、表示制御部63は、アノテーションモデルのN個の状態s1ないしsNが配置されるマップであるモデルマップ上の、1つの状態siから他の1つの状態sjへのユークリッド距離dijと、状態間距離行列の状態間距離dij *との誤差が小さくなるように、モデルマップ上の状態siの位置の座標である状態座標Yiを求める。
 具体的には、例えば、表示制御部63は、ユークリッド距離dijと、状態間距離dij *との統計的な誤差に比例するSammon Mapのエラー関数Eを最小にするように、状態座標Yiを求める。
 ここで、Sammon Mapは、多次元尺度法の1つであり、その詳細は、例えば、J. W. Sammon, JR., "A Nonlinear Mapping for Data Structure Analysis", IEEE Transactions on Computers, vol. C-18, No. 5, May 1969に記載されている。
 Sammon Mapでは、例えば、式(4)のエラー関数Eを最小にするように、例えば、2次元のマップであるモデルマップ上の状態座標Yi=(xi,yi)(x座標とy座標)が求められる。
Figure JPOXMLDOC01-appb-M000004
                        ・・・(4)
 ここで、式(4)において、Nは、アノテーションモデルの状態の総数を表し、i及びjは、1ないしNの範囲の整数値をとる、状態を特定する状態IDである。
 dij *は、状態間距離行列の第i行第j列の要素(コンポーネント)を表し、状態siから状態sjへの状態間距離を表す。dijは、モデルマップ上の、状態siの位置の座標(状態座標)Yiと、状態sjの位置の座標Yjとの間のユークリッド距離を表す。
 表示制御部63は、式(4)のエラー関数Eが最小になるように、状態座標Yi(i=1,2,・・・,N)を、勾配法の反復適用により求める。
 そして、表示制御部63は、状態座標Yiの位置に、対応する状態si(の画像)を配置したモデルマップ(のグラフィクス)を描画する。また、表示制御部63は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。
 さらに、表示制御部63は、モデルマップ上の状態siの位置に、その状態siに対応するフレームを代表する代表画像や、その状態siに対応するフレームに付与されたアノテーションを配置し、ディスプレイに表示させる。
 なお、表示制御部63は、コンテンツ記憶部11から対象コンテンツを取得し、その対象コンテンツの、状態siに対応するフレームのうちの、表示時刻(再生時刻)が最も早いフレーム(コンテンツの、より先頭側のフレーム)を縮小することで得られるサムネイル等を、状態siに対応するフレームの代表画像として生成する。
 ここで、状態siに対応するフレームの代表画像としては、状態siに対応するフレームのうちの、表示時刻が最も早いフレーム(先頭のフレーム)だけを用いた静止画のサムネイルの他、例えば、先頭側の複数フレームを用いた、アニメーションGIFのような動画のサムネイルを採用することが可能である。
 図16は、表示制御部63によって表示されるモデルマップのみの表示例(代表画像とアノテーションが配置されていないモデルマップの表示例)を示している。
 図16のモデルマップにおいて、楕円は、状態を表し、楕円どうしを結ぶ線分(点線)は、状態遷移を表す。また、楕円に付してある数字は、その楕円が表す状態の状態IDを表す。
 表示制御部63は、上述したようにして求められる状態座標Yiの位置に、対応する状態si(の画像(図16では、楕円))を配置したモデルマップ(のグラフィクス)を描画する。
 さらに、表示制御部63は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。すなわち、表示制御部63は、モデルマップ上の状態siから他の状態sjへの状態遷移確率が、所定の閾値より大である場合には、それらの状態siとsjとの間を結ぶ線分を描画する。
 ここで、モデルマップにおいて、状態等は、強調して描画することができる。
 すなわち、図16のモデルマップにおいて、状態siは、楕円(円を含む)等で描画されるが、この状態siを表す楕円等は、例えば、その状態siの出力確率分布bi(o)の最大値等に応じて、半径や色を変化させて描画することができる。
 また、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分は、状態遷移確率の大きさに応じて、線分の幅や色を変化させて描画することができる。
 ところで、図15の表示制御部63において、式(4)のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めた場合、状態(を表す楕円)は、図16に示したように、モデルマップ上に、円状に配置される。
 そして、この場合、円状のモデルマップの円周付近(外側)(外縁)に、状態が密集し、状態の配置が見にくくなって、いわば、可視性が損なわれることがある。
 そこで、図15の表示制御部63では、式(4)のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めることができる。 
 すなわち、表示制御部63では、ユークリッド距離dijが、所定の閾値THd(例えば、THd=1.0等)より大であるかどうかを判定する。
 そして、ユークリッド距離dijが、所定の閾値THdより大でない場合には、表示制御部63は、式(4)のエラー関数の演算において、ユークリッド距離dijとして、そのユークリッド距離dijを、そのまま用いる。
 一方、ユークリッド距離dijが、所定の閾値THdより大である場合には、表示制御部63は、式(4)のエラー関数の演算において、ユークリッド距離dijとして、状態間距離dij *を用いる(dij=dij *とする)(ユークリッド距離dijを、状態間距離dij *に等しい距離とする)。
 この場合、モデルマップにおいて、ユークリッド距離dijが、ある程度近い(閾値THdより大でない)2つの状態si及びsjに注目したときには、状態座標Yi及びYjは、ユークリッド距離dijと状態間距離dij *とが一致するように(ユークリッド距離dijが状態間距離dij *に近づくように)変更される。
 一方、モデルマップにおいて、ユークリッド距離dijが、ある程度遠い(閾値THdより大の)2つの状態si及びsjに注目したときには、状態座標Yi及びYjは、変更されない。
 その結果、ユークリッド距離dijが、ある程度遠い2つの状態si及びsjは、ユークリッド距離dijが遠いままとされるので、図16に示したように、モデルマップの円周(外縁)付近に、状態が密集することによって、可視性が損なわれることを防止することができる。
 図17は、修正後のエラー関数Eを用いて得られるモデルマップの表示例を示す図である。
 図17のモデルマップによれば、円周付近に、状態が密集していないことを確認することができる。
 図18及び図19は、表示制御部63によって表示される、代表画像とアノテーションとが配置されたモデルマップの表示例を示す図である。
 なお、図19は、図18の太線の楕円で囲む部分を拡大した拡大図である。
 図18及び図19では、状態siは、矩形で描画されている。
 但し、図18及び図19のモデルマップでは、アノテーションモデルの状態の中で、対応するフレーム(対象コンテンツのフレーム)が存在する状態だけが、矩形で描画されており、対応するフレームが存在しない状態は、描画されていない(状態遷移を表す線分どうしの交点として描画されている)。
 また、対応するフレームが存在する状態を表す矩形には、その状態に対応するフレームの代表画像が表示(配置)され、さらに、下部には、その状態に対応するフレームに付与されたアノテーションとしての単語が表示されている。
 表示制御部63では、例えば、ユーザが再生を要求したコンテンツを、対象コンテンツとして、その対象コンテンツについて、図18及び図19に示したような、代表画像とアノテーションとが配置されたモデルマップを表示させることができる。
 さらに、表示制御部63では、現在再生されているフレーム(以下、再生フレームともいう)に対応する状態については、代表画像に代えて、再生フレームの画像を、代表画像より大きく表示させることができる。
 また、表示制御部63では、再生フレームに対応する状態については、アノテーションも、他の状態より大きく表示させることができる。
 さらに、表示制御部63では、ユーザにより、代表画像が指定されたときに、その代表画像が表示された状態に対応するフレームのうちの、例えば、表示時刻が最も早いフレームから再生を開始するように、対象コンテンツの再生制御を行うことができる。
 ここで、アノテーションモデルの状態に対応するフレームに付与されるアノテーションを、状態のアノテーションともいい、アノテーションモデルの状態に対応するフレームの代表画像を、状態の代表画像ともいう。
 以上のように、対象コンテンツについて、アノテーションモデルの状態ごとに、その状態のアノテーション及び代表画像を表示することにより、ユーザは、アノテーションや代表画像を参照することにより、興味がある内容のフレームを(の集まり)、容易に探し出すことができ、そのフレームからの再生を行うことができる。
 したがって、ユーザが、状態のアノテーションを見て、再生を開始するフレームを指定するという、アノテーションを利用したアプリケーションを提供することができる。
 [表示制御処理]
 図20は、図15の表示制御装置16がモデルマップを表示させる表示制御処理を説明するフローチャートである。
 ステップS51ないしS55において、表示制御装置16では、図9のステップS21ないしS25とそれぞれ同様の処理が行われる。
 すなわち、ステップS51において、特徴量抽出部61は、コンテンツ記憶部11に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部11から取得して、処理は、ステップS52に進む。
 ステップS52では、特徴量抽出部61は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS52において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS53に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS53からステップS55に進む。
 また、ステップS52において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS54に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部61は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS54からステップS55に進む。
 ステップS55では、最尤状態系列算出部62は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
 さらに、最尤状態系列算出部62は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給して、処理は、ステップS55からステップS56に進む。
 ここで、対象コンテンツについて、最尤状態系列が求められることにより、対象コンテンツの第tフレームは、アノテーションモデルの状態のうちの、最尤状態系列のt番目の状態になっている状態に対応付けられる。
 ステップS56では、表示制御部63は、コンテンツ記憶部11から対象コンテンツを取得する。さらに、表示制御部63は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの各状態について、その状態に対応する、対象コンテンツのフレームを用いて、状態(に対応するフレーム)の代表画像を生成し、処理は、ステップS56からステップS57に進む。
 すなわち、いま、アノテーションモデルのある状態に注目すると、表示制御部63は、注目する注目状態に対応する、対象コンテンツのフレームのうちの、表示時刻が最も早いフレームを縮小することで得られるサムネイルを、注目状態の代表画像として生成する。
 なお、注目状態に対応するフレームが存在しない場合(最尤状態系列に、注目状態が存在しない場合)、注目状態については、代表画像は生成されない。
 ステップS57では、表示制御部63は、アノテーション付与装置14(図18)と同様に、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、頻度(出力確率)が高い単語を、注目フレームに付与するアノテーション(となる単語)として選択し、これにより、注目フレームに、アノテーションを付与する。
 ここで、ある状態に対応するフレームには、同一のアノテーションが付与されるので、対象コンテンツの各フレームに、アノテーションを付与することは、状態にアノテーションを付与することと等価である。
 なお、状態へのアノテーションの付与は、その状態に対応するフレームへのアノテーションの付与と同様に、その状態において観測される単語の頻度の多項分布に基づいて、頻度(出力確率)が高い単語を、状態に付与するアノテーション(となる単語)として選択することにより行うことができる。
 ステップS57において、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップS58に進み、表示制御部63は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(対象コンテンツについて、最尤状態系列を求めるのに用いられたアノテーションモデル)を用い、上述したようにして、モデルマップ(図16、図17)を生成する。
 そして、処理は、ステップS58からステップS59に進み、表示制御部63は、モデルマップを、ディスプレイに表示させる。
 さらに、表示制御部63は、ステップS56で生成された代表画像、及び、ステップS57で求められたアノテーションを用い、モデルマップ上の各状態(但し、対象コンテンツについて求められた最尤状態系列を構成しない状態を除く)に、その状態の代表画像とアノテーションとを表示させる。
 その後、処理は、ステップS59からステップS60に進み、表示制御部63は、対象コンテンツの再生制御を行う。
 すなわち、表示制御部63は、例えば、対象コンテンツの最初のフレームから再生を開始させ、図18に示したように、モデルマップ上の、現在再生されているフレーム(再生フレーム)に対応する状態については、代表画像に代えて、再生フレームの画像を、代表画像より大きく表示させるとともに、アノテーションを、他の状態より大きく表示させる。
 さらに、表示制御部63は、例えば、ユーザにより、モデルマップ上の、代表画像及びアノテーションが表示された状態が指定されると、いま、再生フレームになっているフレームの再生を終了させ、ユーザにより指定された状態に対応するフレームのうちの、表示時刻が最も早いフレームを、再生フレームとして、再生を再開させる。
 以上のように、表示制御装置16では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される多項分布において頻度が高い単語を、注目フレームに付与するアノテーションとして選択し、例えば、モデルマップを用いた表示形式(図18、図19)で、アノテーションモデルの状態ごとに、状態に対応するフレームに付与するアノテーションを表示させるので、ユーザは、対象コンテンツに付与されたアノテーションを、一覧することができる。
 また、表示制御装置16によれば、アノテーションが表示されるモデルマップ上の状態が指定されると、その状態に対応するフレームの再生を開始するという、アノテーションを利用したアプリケーションを提供することができる。
 さらに、表示制御装置16でも、アノテーション付与装置14、及び、フレーム検索装置15と同様に、対象コンテンツについて、説明テキストを取得することができる場合には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツについて、アノテーションを表示することができる。
 ここで、対象コンテンツのフレームに付与されたアノテーションの、アノテーションモデルの状態ごとの表示は、モデルマップを用いた表示形式(図18、図19)以外の表示形式(ビュー)で行うことが可能である。
 すなわち、対象コンテンツのフレームに付与されたアノテーションの、アノテーションモデルの状態ごとの表示は、状態のアノテーションを、例えば、一方向に並べた表示形式や、2次元の表形式に並べた表示形式等で表示することが可能である。
 なお、学習装置12の特徴量抽出部21(図2)、アノテーション付与装置14の特徴量抽出部41(図8)、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)は、学習装置12の特徴量抽出部21(図2)によって兼用することが可能である。
 また、アノテーション付与装置14の最尤状態系列算出部42(図8)、フレーム検索装置15の最尤状態系列算出部52(図10)、及び、表示制御装置16の最尤状態系列算出部62(図16)は、そのうちのいずれか1つによって兼用することが可能である。
 [特徴量抽出部21の第2の構成例]
 図21は、図2の特徴量抽出部21の第2の構成例を示すブロック図である。
 なお、図21において、図3の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図21の特徴量抽出部21は、画像取得部31、説明テキスト取得部33、テキスト特徴量抽出部34、及び、同期部35を有する点で、図3の場合と共通する。
 但し、図21の特徴量抽出部21は、画像特徴量抽出部32に代えて、画像特徴量抽出部101が設けられているとともに、音声取得部102、及び、音声特徴量抽出部103が新たに設けられている点で、図3の場合と相違する。
 画像特徴量抽出部101は、第1画像特徴量抽出部101、第2画像特徴量抽出部101、及び、第3画像特徴量抽出部101を有し、画像取得部31から供給される画像の各フレームから、複数種類の画像特徴量として、例えば、第1画像特徴量、第2画像特徴量、及び、第3画像特徴量を抽出し、同期部35に供給する。
 すなわち、第1画像特徴量抽出部101は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、図3の画像特徴量抽出部32と同様にして、シーン特徴量を、第1画像特徴量として抽出し、同期部35に供給する。
 第2画像特徴量抽出部101は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、人物が映っている領域を囲む最小の矩形の領域である人物矩形領域を検出する。
 さらに、第2画像特徴量抽出部101は、注目フレームを、複数の小領域であるサブ領域に分割し、各サブ領域について、そのサブ領域に存在する人物矩形領域のピクセル数を、サブ領域のピクセル数で除算することによって、サブ領域に占める人物矩形領域の割合(以下、人物矩形領域率ともいう)を求める。
 そして、第2画像特徴量抽出部101は、注目フレームの各サブ領域の人物矩形領域率をコンポーネントとするベクトルを構成し、そのベクトルを、注目フレームから抽出された第2画像特徴量として、同期部35に供給する。
 第3特徴量抽出部101は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、人物の顔が映っている領域を囲む最小の矩形の領域である顔矩形領域を検出する。
 さらに、第3画像特徴量抽出部101は、注目フレームを、複数の小領域であるサブ領域に分割し、各サブ領域について、そのサブ領域に存在する顔矩形領域のピクセル数を、サブ領域のピクセル数で除算することによって、サブ領域に占める顔矩形領域の割合(以下、顔矩形領域率ともいう)を求める。
 そして、第3画像特徴量抽出部101は、注目フレームの各サブ領域の顔矩形領域率をコンポーネントとするベクトルを構成し、そのベクトルを、注目フレームから抽出された第3画像特徴量として、同期部35に供給する。
 なお、画像特徴量抽出部101において抽出する複数種類の画像特徴量は、上述したような第1画像特徴量ないし第3画像特徴量に限定されるものではない。
 音声取得部102は、例えば、コンテンツ記憶部11から、画像取得部31が取得するのと同一の学習用コンテンツを取得し、その学習用コンテンツから、音声を逆多重化(分離)することにより取得して、音声特徴量抽出部103に供給する。
 音声特徴量抽出部103は、音声取得部102からの音声から、音声特徴量を抽出し、同期部35に供給する。
 すなわち、例えば、音声特徴量抽出部103は、音声分類(sound classification, audio classification)の分野で利用されているような、音声からシーン(例えば、「音楽」、「非音楽」、「ノイズ」、「人の声」、「人の声+音楽」、および「観衆」など)を分類するのに適した音声特徴量を生成するための原始的な特徴量であるプリミティブ特徴量を抽出する。
 ここで、プリミティブ特徴量としては、例えば、音声のエネルギーや、ゼロ交差レート、スペクトル重心等がある。プリミティブ特徴量の抽出の方法については、例えば、「Zhu Liu; Jincheng Huang; Yao Wang; Tsuhan Chen, Audio feature extraction and analysis for scene classification, First Workshop on Multimedia Signal Processing, 1997., IEEE Volume, Issue , 23-25 Jun 1997 Page(s):343 - 348」、および「Brezeale, D. Cook, D.J., Automatic Video Classification: A Survey of the Literature, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, May 2008, Volume: 38, Issue: 3, pp. 416-430」に記載されている。
 音声特徴量抽出部103は、例えば、0.05秒等の時間長の窓を、0.05秒等の一定間隔でずらしながら、窓内の音声から、1種類以上のプリミティブ特徴量を抽出する。
 さらに、音声特徴量抽出部103は、プリミティブ特徴量を抽出した時刻を、順次、注目時刻として注目し、注目時刻の前後の0.5秒等の間のプリミティブ特徴量の平均値と分散等の統計量を求め、その平均値と分散をコンポーネントとするベクトルを、注目時刻の音声特徴量として、同期部35に供給する。
 なお、図21において、同期部35は、画像特徴量抽出部101から供給される第1画像特徴量ないし第3画像特徴量、音声特徴量抽出部103から供給される音声特徴量、及び、テキスト特徴量抽出部34から供給されるテキスト特徴量を、フレーム単位で同期させて出力する。
 すなわち、同期部35は、例えば、注目する注目フレームから抽出された第1画像特徴量ないし第3画像特徴量、注目フレームの開始時刻等の所定の時刻に最も近い時刻の音声特徴量、及び、注目フレーム以降の時刻の位置の窓であって、注目フレームに時間的に最も近い位置の窓から得られたテキスト特徴量のセットが、注目フレームの第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量のセットになるように、画像特徴量抽出部101から供給される第1画像特徴量ないし第3画像特徴量、音声特徴量抽出部103から供給される音声特徴量、及び、テキスト特徴量抽出部34から供給されるテキスト特徴量を同期させ、モデル学習部22(図2)に出力する。
 この場合、モデル学習部22は、特徴量抽出部21から供給される学習用コンテンツの第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量を含むマルチストリームを、コンテンツにアノテーションを付与するためのアノテーション用のアノテーション用系列として、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
 したがって、この場合、モデル学習部22で学習に用いられるマルチストリームであるアノテーション用系列は、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の5つの構成要素系列o[1],o[2],o[3],o[4],o[5]で構成される。
 そして、そのようなアノテーション用系列を用いて学習が行われることにより得られるアノテーションモデルの状態は、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の(5つのモーダルの)軸によって定義される空間である特徴量空間において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群をまとめて表現する(特徴量空間を状態分割する)。
 なお、図21に示したように、学習装置12の特徴量抽出部21において、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の5つの特徴量が抽出される場合には、アノテーション付与装置14の特徴量抽出部41(図8)、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)でも、特徴量抽出部21と同様に、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の5つの特徴量が抽出され、その5つの特徴量を含むアノテーション用系列を用いて、処理が行われる。
 但し、アノテーション付与装置14の特徴量抽出部41(図8)、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)では、対象コンテンツが、説明テキストを取得することができないコンテンツである場合には、テキスト特徴量としては、上述したように、ダミーのデータが用いられる。
 以上のように、アノテーション用系列を、多数の種類の特徴量である第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量から構成することにより、アノテーション用系列をシーン特徴量とテキスト特徴量とから構成する場合に比較して、コンテンツを、より適切に(精度良く)、内容が類似するフレームに分類することができる(最尤状態系列を求めたときに、内容が類似するフレームが、同一の状態に対応するようになる)。
 なお、音声特徴量としては、上述したプリミティブ特徴量(の平均値や分散)の他、音声認識等の音声処理で用いられている、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等を採用することができる。
 [特徴量抽出部21の第3の構成例]
 図22は、図2の特徴量抽出部21の第3の構成例を示すブロック図である。
 なお、図22において、図3の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図22の特徴量抽出部21は、画像取得部31、画像特徴量抽出部32、説明テキスト取得部33、テキスト特徴量抽出部34、及び、同期部35を有する点で、図3の場合と共通する。
 但し、図22の特徴量抽出部21は、基底空間学習部151、基底空間データ記憶部152、次元圧縮部153、基底空間学習部161、基底空間データ記憶部162、及び、次元圧縮部153が新たに設けられている点で、図3の場合と相違する。
 基底空間学習部151には、画像特徴量抽出部32から、学習用コンテンツの画像特徴量が供給される。
 基底空間学習部151は、画像特徴量を写像するための、画像特徴量の次元より小さい次元の画像用基底空間の基底空間データを、画像特徴量抽出部32からの画像特徴量を用いて求め、基底空間データ記憶部152に供給する。
 基底空間データ記憶部152は、基底空間学習部151からの画像用基底空間の基底空間データを記憶する。
 次元圧縮部153には、画像特徴量抽出部32から、学習用コンテンツの画像特徴量が供給される。
 次元圧縮部153は、基底空間データ記憶部152に記憶された画像用基底空間の基底空間データに基づき、画像特徴量抽出部32からの画像特徴量の次元を小さくする次元圧縮を行い、次元圧縮後の画像特徴量を、同期部35に供給する。
 ここで、画像特徴量抽出部32で抽出される画像特徴量は、ベクトルであり、基底空間学習部151は、画像特徴量抽出部32からの学習用コンテンツの画像特徴量を用い、例えば、k-means法により、ベクトル量子化に用いるコードブックを、画像用基底空間の基底空間データとして求める。
 そして、次元圧縮部153は、画像用基底空間の基底空間データとしてのコードブックを用いて、画像特徴量抽出部32からの画像特徴量のベクトル量子化を行うことにより次元圧縮を行い、コードブックに登録されたセントロイドベクトルのうちの、画像特徴量抽出部32からの画像特徴量としてのベクトルとの距離が最も近いセントロイドベクトルを表すコード(スカラの離散値)を、次元圧縮後の画像特徴量として求める。
 したがって、次元圧縮部153では、画像特徴量抽出部32からの画像特徴量としての所定の次元のベクトルが、1次元のコードに次元圧縮されるが、この次元圧縮は、1次元のコードの空間を、画像用基底空間として、所定の次元のベクトルを、画像用基底空間に写像していると捉えることができる。
 なお、画像特徴量の次元圧縮は、ベクトル量子化の他、例えば、HMMやSOM(Self Organizing Maps)を用いて行うことができる。
 すなわち、画像特徴量抽出部32で抽出される画像特徴量を用いて、HMMの学習を行い、学習後のHMMにおいて、画像特徴量の時系列が観測される最尤状態系列を求め、その最尤状態系列において、各画像特徴量に対応する状態の状態IDを、次元圧縮後の画像特徴量として求めることができる。
 また、例えば、画像特徴量抽出部32で抽出される画像特徴量を用いて、SOMの学習を行い、学習後のSOMに対して、画像特徴量を入力したときに、勝者(winner)となるノードを表すIDを、次元圧縮後の画像特徴量として求めることができる。
 基底空間学習部161には、テキスト特徴量抽出部34から、学習用コンテンツのテキスト特徴量が供給される。
 基底空間学習部161は、テキスト特徴量を写像するための、テキスト特徴量の次元より小さい次元のテキスト用基底空間の基底空間データを、テキスト特徴量抽出部34からのテキスト特徴量を用いて求め、基底空間データ記憶部162に供給する。
 基底空間データ記憶部162は、基底空間学習部161からのテキスト用基底空間の基底空間データを記憶する。
 次元圧縮部163には、テキスト特徴量抽出部34から、学習用コンテンツのテキスト特徴量が供給される。
 次元圧縮部163は、基底空間データ記憶部162に記憶されたテキスト用基底空間の基底空間データに基づき、テキスト特徴量抽出部34からのテキスト特徴量の次元を小さくする次元圧縮を行い、次元圧縮後のテキスト特徴量を、同期部35に供給する。
 ここで、テキスト特徴量抽出部34で抽出されるテキスト特徴量は、説明テキストにおいて各単語が出現する頻度に関する単語頻度情報であり、例えば、図5及び図6で説明したように、所定の窓内(窓に対応する時間内)に表示される字幕のテキストに含まれる単語を、擬似文書として得られる、その擬似文書に、K個の単語が登録された単語辞書(図5)の各単語が出現する頻度をコンポーネントとするK次元のベクトル(登録単語頻度ベクトル)である。
 基底空間学習部161は、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルを用いて、例えば、LDA(Latent Dirichlet Allocation)の学習を行うことにより、LDAのパラメータを、テキスト用基底空間の基底空間データとして求める。
 そして、次元圧縮部163は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用いて、擬似文書から得られたテキスト特徴量を、その擬似文書に対するLDAの各潜在トピックの尤度であるトピック尤度に変換し、トピック尤度が最大の潜在トピックを表すトピックラベル(スカラの離散値)を、次元圧縮後のテキスト特徴量として求める。
 したがって、次元圧縮部163では、テキスト特徴量抽出部34からのテキスト特徴量としてのK次元の登録単語頻度ベクトルが、1次元のトピックラベルに次元圧縮されるが、この次元圧縮は、1次元のトピックラベルの空間を、テキスト用基底空間として、K次元の登録単語頻度ベクトルを、テキスト用基底空間に写像していると捉えることができる。
 図23は、図22の基底空間学習部161が、テキスト用基底空間の基底空間データとしてのLDAのパラメータを求める、LDAの学習を説明する図である。
 基底空間学習部161は、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルを用いて、LDAの学習を行うことにより、LDAのパラメータを求める。
 LDAについては、例えば、David M. Blei,  Andrew Y. Ng,  Michael I. Jordan 著 “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3 (2003) 993-1022.等に記載されている。
 ここで、図23では、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルの代わりに、図5で説明した頻度データ、すなわち、単語辞書に登録されているK個の単語のうちの、擬似文書に出現する単語の単語IDと、その単語の出現頻度(擬似文書に出現する頻度)とを対応付けた頻度データを図示してある。テキスト特徴量としての登録単語頻度ベクトルと、頻度データとは、等価なデータである。
 LDAのパラメータとしては、いわゆるαパラメータ及びβパラメータが求められるとともに、LDAの潜在トピックtopic(をトピックとする文書)において、単語辞書に登録された単語wordが生起される(対数)生起確率log(P(word|topic))が、単語辞書に登録された各単語(学習用コンテンツから得られる擬似文書に出現するすべての単語それぞれ)と、LDAの各潜在トピックとの組み合わせすべてについて求められる。
 したがって、単語辞書に登録された単語の数がK個であり、LDAの潜在トピックの数がD個であるとすると、単語の生起確率log(P(word|topic))は、は、K×D個だけ求められる。
 なお、LDAの学習において、潜在トピックの数Dとしては、あらかじめ決められた所定の値が用いられる。
 基底空間学習部161は、LDAの学習を行うことにより、LDAのパラメータを求めた後、単語の生起確率log(P(word|topic))を用いて、LDAの各潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度とを登録したトピック対頻出単語テーブルの作成を行う。
 すなわち、基底空間学習部161は、LDAの各潜在トピックを、順次、注目トピックとして、注目トピックにおいて、単語辞書の各単語が生起される生起確率log(P(word|topic))に、所定の定数(例えば、1000等)を乗算することにより、生起確率log(P(word|topic))を、注目トピックの文書に単語辞書の各単語が出現する出現頻度(回数)に変換する。
 さらに、基底空間学習部161は、注目トピックについて求められた単語辞書の各単語が出現する出現頻度を、所定の閾値(例えば、1等)と比較し、単語辞書の単語の中から、所定の閾値以上の出現頻度の単語を、注目トピックにおいて出現頻度が高い単語(以下、頻出単語ともいう)として選択する。
 そして、基底空間学習部161は、注目トピックのトピックラベル、注目トピックにおいて出現頻度が高い頻出単語、及び、頻出単語の出現頻度を対応付けて、トピック対頻出単語テーブルに登録する。
 ここで、図23のトピック対頻出単語テーブルにおいて、"ldamap"の後の括弧{}内の数字が、トピックラベルであり、その後の"words"に続いて記載されている単語が、直前のトピックラベルが表す潜在トピックにおいて出現頻度が高い頻出単語である。
 また、頻出単語の後の"word_cnt"に続いて記載されている数字が、各頻出単語の出現頻度であり、その後の"numwords"に続く数字は、頻出単語の出現頻度の総和である。
 なお、トピック対頻出単語テーブルにおいて、各潜在トピックの頻出単語は、出現頻度の降順(出現頻度の大きい順)にソートしておくことができる。
 また、トピック対頻出単語テーブルは、例えば、アノテーションモデル、及び、単語辞書とともに、アノテーションモデル記憶部13に記憶しておくことができる。
 基底空間学習部161は、以上のLDAのパラメータと、トピック対頻出単語テーブルとを、テキスト用基底空間の基底空間データとして求める。
 図24は、図22の次元圧縮部163が、図23で説明したテキスト用基底空間の基底空間データを用いて行う、テキスト特徴量の次元圧縮を説明する図である。
 次元圧縮部163は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用いて、擬似文書から得られたテキスト特徴量を、その擬似文書に対するLDAの各潜在トピックの尤度であるトピック尤度に変換し、トピック尤度が最大の潜在トピックを表すトピックラベル(スカラの離散値)を、次元圧縮後のテキスト特徴量として求める。
 ここで、LDAのパラメータを用いたLDA認識処理によれば、文書docにおける各単語の出現頻度を表す頻度データから、その文書docのトピックがLDAの各潜在トピックであることの尤度を表すトピック尤度P(topic|doc)を、LDA認識処理の結果であるLDA認識結果データとして得ることができる。
 次元圧縮部163は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用い、テキスト特徴量抽出部34からの、擬似文書から得られたテキスト特徴量としてのK次元の登録単語頻度ベクトルを入力として、LDA認識処理を行うことにより、テキスト特徴量が得られた擬似文書に対するLDAの各潜在トピックのトピック尤度を求める。
 したがって、LDA認識処理によれば、LDAの潜在トピックの数がD個であるとすると、K次元の登録単語頻度ベクトルが、D次元の離散確率分布としてのD個の潜在トピックのトピック尤度に写像されることになる。
 次元圧縮部163は、テキスト特徴量に対して、LDAのD個の潜在トピックのトピック尤度を求めると、そのD個の潜在トピックのトピック尤度の中の最大値である最大トピック尤度を検出し、その最大トピック尤度の潜在トピックのトピックラベルを、次元圧縮後のテキスト特徴量として出力する。
 以上のように、画像特徴量やテキスト特徴量の次元圧縮を行うことにより、次元圧縮を行わない場合に比較して、アノテーションモデルとしてのマルチストリームHMMの学習や、最尤状態系列を求める処理に要する演算量を低減することができる。
 なお、図22では、同期部35は、次元圧縮部153からの次元圧縮後の画像特徴量であるコード(以下、画像コードともいう)と、次元圧縮部163からの次元圧縮後のテキスト特徴量であるトピックラベルとを、フレーム単位で同期させて、モデル学習部22(図2)に出力する。
 モデル学習部22は、特徴量抽出部21(の同期部35)からの画像コードとトピックラベルとの系列を、アノテーション用系列として、マルチストリームHMMであるアノテーションモデルの学習を、Baum-Welchの再推定法に従って行う。
 ここで、いまの場合、アノテーション用系列は、1個目の構成要素系列o[1]としての画像コードの系列と、2個目の構成要素系列o[2]としてのトピックラベルの系列との2つの構成要素系列で構成される。
 アノテーション用系列の1個目の構成要素系列o[1]である画像コードは、離散値であり、アノテーションモデルの各状態sjの出力確率分布(観測モデル)b[1]j(o[1])として、多項分布が用いられる。
 また、2個目の構成要素系列o[2]であるトピックラベルも、離散値であり、アノテーションモデルの各状態sjの出力確率分布b[2]j(o[2])として、多項分布が用いられる。
 この場合、Baum-Welchの再推定法では、Eステップにおいて、初期確率πi、状態遷移確率aij、及び、式(1)に従って求められる出力確率分布bj(o[1],o[2])を用いて、h番目の学習用コンテンツについて、時刻tに、状態jにいる状態確率γ(h) t,jが、単一の系列を用いるHMMの学習の場合と同様にして求められる。
 また、Mステップでは、Eステップで求められた状態確率γ(h) t,jを用いて、各画像コードが観測される出力確率分布b[1]jとしての多項分布、及び、各トピックラベルが観測される出力確率分布b[2]jとしての多項分布が、多項分布を観測モデル(出力確率分布)として有するHMMの学習の場合と同様に、式(5)に従って求められる。
Figure JPOXMLDOC01-appb-M000005
                        ・・・(5)
 ここで、式(5)において、o(h) [m](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームにおいて、各画像コード(m=1のとき)、又は、各トピックラベル(m=2のとき)の観測の有無を示す多項分布を表す。
 画像コードの多項分布o(h) [1](t)は、画像コードの総数がK'個であるとすると、時刻tに観測される1個の画像コードの分布(確率)が1であり、残りの画像コードの分布がすべて0である多項分布となる。
 また、トピックラベルの多項分布o(h) [2](t)は、トピックラベルの総数(潜在トピックの数)がD個であるとすると、時刻tに観測される1個のトピックラベルの分布(確率)が1であり、残りのトピックラベルの分布がすべて0である多項分布となる。
 図25は、学習装置12の特徴量抽出部21が図22に示したように構成される場合の、アノテーション付与装置14の特徴量抽出部41(図8)の構成例を示すブロック図である。
 なお、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)も、アノテーション付与装置14の特徴量抽出部41と同様に構成される。
 図25において、アノテーション付与装置14(図8)の特徴量抽出部41は、画像取得部171、画像特徴量抽出部172、基底空間データ記憶部173、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、基底空間データ記憶部183、次元圧縮部184、及び、同期部191を有する。
 図25の特徴抽出部41において、基底空間データ記憶部173は、図22の基底空間学習部151で求められた画像用基底空間の基底空間データを記憶し、基底空間データ記憶部183は、図22の基底空間学習部161で求められたテキスト用基底空間の基底空間データを記憶する。
 そして、画像取得部171、画像特徴量抽出部172、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、次元圧縮部184、及び、同期部191では、対象コンテンツについて、図22の画像取得部31、画像特徴量抽出部32、次元圧縮部153、説明テキスト取得部33、テキスト特徴量抽出部34、次元圧縮部163、及び、同期部35とそれぞれ同様の処理が行われ、これにより、次元圧縮後の画像特徴量としての画像コードと、次元圧縮後のテキスト特徴量としてのトピックラベルとがフレーム単位で同期したアノテーション用系列が構成される。
 但し、説明テキストを取得することができない対象コンテンツについては、次元圧縮後のテキスト特徴量としてのトピックラベルとして、ダミーのデータ(1次元の離散値)を用いて、アノテーション用系列が構成される。
 なお、図22の特徴量抽出部21では、画像特徴量とテキスト特徴量の両方について、次元圧縮を行うこととしたが、次元圧縮は、画像特徴量とテキスト特徴量のうちの一方についてだけ行うことが可能である。
 図25の特徴量抽出部41でも、同様である。但し、画像特徴量やテキスト特徴量について、次元圧縮を行うかどうかは、特徴量抽出部21と、特徴量抽出部41(特徴量抽出部51及び61)とで、一致させる必要がある。
 [テキスト特徴量について次元圧縮を行う場合のアノテーション付与処理]
 図26は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図8のアノテーション付与装置14によるアノテーション付与処理を説明するフローチャートである。
 なお、図26では(後述する図27、図28、及び、図30でも同様)、例えば、画像特徴量、及び、テキスト特徴量の次元圧縮が行われることとする。
 ステップS101において、特徴量抽出部41(図8)は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS102に進む。
 ステップS102では、特徴量抽出部41は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS102において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、処理は、ステップS103に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部41は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部41は、アノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS103からステップS105に進む。
 また、ステップS102において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS104に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部41は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部41は、例えば、ダミーのデータ(例えば、所定の値のトピックラベル)を、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS104からステップS105に進む。
 ステップS105では、最尤状態系列算出部42は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデル(対象コンテンツのカテゴリに一致するカテゴリの学習用コンテンツを用いて学習が行われたアノテーションモデル)を取得する。
 さらに、最尤状態系列算出部42は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部41からのアノテーション用系列が観測される最尤状態系列を求め、単語選択部43に供給して、処理は、ステップS105からステップS106に進む。
 ステップS106では、単語選択部43は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部42からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。
 すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部43は、最尤状態系列のt番目の状態において観測される潜在トピック(のトピックラベル)の出力確率分布において、出力確率が高い潜在トピックを、第tフレームのフレームトピックとして選択する。
 ここで、第tフレームのフレームトピックとしては、最尤状態系列のt番目の状態において観測される潜在トピックの出力確率分布において、出力確率が最も高い潜在トピックや、出力確率が上位の複数の潜在トピックを選択することができる。
 対象コンテンツの各フレームのフレームトピックが選択されると、処理は、ステップS106からステップS107に進み、単語選択部43は、トピック対頻出単語テーブル(図23)に基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピックの頻出単語を、そのフレームに付与するアノテーションとして選択する。
 すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部43は、トピック対頻出単語テーブルにおいて、注目フレームである第tフレームのフレームトピック(になっている潜在トピック)の頻出単語のうちの、例えば、出現頻度が最も高い頻出単語や、出現頻度が上位の複数の頻出単語を、注目フレームに付与するアノテーションとして選択する。
 なお、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、その複数の潜在トピックのそれぞれの頻出単語から、注目フレームに付与するアノテーション(となる単語)を選択することができる。
 すなわち、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、例えば、第tフレームのフレームトピックになっている複数の潜在トピックのそれぞれの頻出単語のうちの、出現頻度が最も高い頻出単語を、第tフレームに付与するアノテーションとして選択することができる。
 また、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、例えば、第tフレームのフレームトピックになっている潜在トピックの出力確率(最尤状態系列のt番目の状態において観測される、フレームトピックになっている潜在トピックの出力確率)を、その潜在トピックの頻出単語の出現頻度に乗算することにより、出現頻度を補正し、補正後の出現頻度が最も高い単語や、補正後の出現頻度が上位の複数の頻出単語を、第tフレームに付与するアノテーションとして選択することができる。
 単語選択部43が、対象コンテンツのフレームすべてを、注目フレームとして、注目フレームに付与するアノテーションとしての単語を選択し、これにより、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップS107からステップS108に進み、単語選択部43は、対象コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号(第tフレームのt)とを対応付け、アノテーション単語情報として出力し、アノテーション付与処理は、終了する。
 以上のように、アノテーション付与装置14において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、注目フレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおいて出現頻度が高い頻出単語を、注目フレームに付与するアノテーションとして選択する場合にも、図9の場合と同様に、対象コンテンツへのアノテーションの付与を、容易に行うことができる。
 [テキスト特徴量について次元圧縮を行う場合のフレーム検索処理]
 図27は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図10のフレーム検索装置15によるフレーム検索処理を説明するフローチャートである。
 キーワード供給部55は、例えば、ユーザの操作に応じて、キーワードを含む検索クエリを、キーワード合致度算出部53に供給する。
 また、ステップS121ないしS125において、図26のステップS101ないしS105とそれぞれ同様の処理が行われる。
 すなわち、ステップS121において、特徴量抽出部51(図10)は、コンテンツ記憶部11に記憶されたコンテンツの中から、対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS122に進む。
 ステップS122では、特徴量抽出部51は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS122において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS123に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部51は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部51は、アノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS123からステップS125に進む。
 また、ステップS122において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS124に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部51は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部51は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS124からステップS125に進む。
 ステップS125では、最尤状態系列算出部52は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
 さらに、最尤状態系列算出部52は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部51からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部53に供給して、処理は、ステップS125からステップS126に進む。
 ステップS126では、キーワード合致度算出部53は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部52からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。
 すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード度合致度算出部53は、例えば、最尤状態系列のt番目の状態において観測される潜在トピック(のトピックラベル)の出力確率分布において、出力確率が最も高い潜在トピックを、第tフレームのフレームトピックとして選択する。
 その後、処理は、ステップS126からステップS127に進み、キーワード合致度算出部53は、トピック対頻出単語テーブル(図23)に基づき、各潜在トピックについて、キーワード供給部54からの検索クエリに含まれるキーワード(に一致する頻出単語)の出現頻度を求め、その出現頻度をコンポーネントとする頻度ベクトルを求める。
 すなわち、LDAの潜在トピックの数がD個であるとすると、キーワード合致度算出部53は、トピック対頻出単語テーブルにおいて、D個の潜在トピックのうちの1個目の潜在トピックの頻出単語の中から、キーワードに一致する頻出単語を検出し、その頻出単語の出現頻度を獲得する。
 キーワード合致度算出部53は、2個目以降の潜在トピックについても、同様にして、キーワードに一致する頻出単語の出現頻度を獲得し、D個の潜在トピックについて獲得した、キーワードに一致する頻出単語の出現頻度をコンポーネントとするD次元の頻度ベクトルを求める。
 したがって、例えば、LDAの潜在トピックの数が10個である場合、例えば、(10,50,0,0,2,0,0,0,4,0)のような10次元のベクトルが、頻度ベクトルとして求められる。
 ここで、頻度ベクトル(10,50,0,0,2,0,0,0,4,0)の、例えば、(左から)3番目のコンポーネントである0は、3個目の潜在トピックの頻出単語のうちの、キーワードに一致する頻出単語の出現頻度が、0であることを表す。
 なお、トピック対頻出単語テーブルにおいて、ある潜在トピックの頻出単語の中に、キーワードに一致する頻出単語が存在しない場合、その潜在トピックについては、キーワードに一致する頻出単語の出現頻度は、0とされる。
 キーワードについて、頻度ベクトルが求められると、処理は、ステップS127からステップS128に進み、キーワード合致度算出部53は、頻度ベクトルに基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピック(になっている潜在トピック)において、キーワード(に一致する頻出単語)が出現する出現頻度を、キーワード合致度として求める。
 すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード合致度算出部53は、第tフレームのフレームトピックになっている潜在トピックにおいて、キーワードに一致する頻出単語が出現する出現頻度を、第tフレームのキーワード合致度として、頻度ベクトルから獲得する。
 例えば、第tフレームのフレームトピックが、D個の潜在トピックのうちのd番目の潜在トピックである場合には、D次元の頻度ベクトルのd番目(第d次元)のコンポーネントになっている出現頻度が、第tフレームのキーワード合致度として獲得される。
 キーワード合致度算出部53は、対象コンテンツのフレームのすべてについて、キーワード合致度を求めると、そのキーワード合致度を、フレーム選択部55に供給して、処理は、ステップS128からステップS129に進む。
 ステップS129では、フレーム選択部55は、コンテンツ記憶部11から、対象コンテンツを取得し、キーワード合致度選択部53からのキーワード合致度に基づいて、対象コンテンツから、キーワード(検索クエリ)に合致するキーワードフレームを選択する。
 すなわち、フレーム選択部55は、例えば、図11の場合と同様に、対象コンテンツから、キーワード合致度選択部53からのキーワード合致度が検索閾値より高いフレームを、キーワードフレームとして選択し、そのキーワードフレームの時系列順の並びを、キーワードダイジェストとして出力して、フレーム検索処理を終了する。
 以上のように、フレーム検索装置15において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、注目フレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおけるキーワードの出現頻度を求め、キーワードの出現頻度が高い注目フレームを、キーワードフレームとして選択する場合にも、図11の場合と同様に、キーワードフレームだけのキーワードダイジェストを再生するという、アノテーションモデルを利用したアプリケーションを提供することができる。
 [テキスト特徴量について次元圧縮を行う場合の表示制御処理]
 図28は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図15の表示制御装置16によるモデルマップの表示制御処理を説明するフローチャートである。
 ステップS141ないしS145において、表示制御装置16では、図26のステップS101ないしS105とそれぞれ同様の処理が行われる。
 すなわち、ステップS141において、特徴量抽出部61(図15)は、コンテンツ記憶部11に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部11から取得して、処理は、ステップS142に進む。
 ステップS142では、特徴量抽出部61は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS142において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS143に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部61は、アノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS143からステップS145に進む。
 また、ステップS142において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS144に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部61は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部61は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS144からステップS145に進む。
 ステップS145では、最尤状態系列算出部62は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
 さらに、最尤状態系列算出部62は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給して、処理は、ステップS145からステップS146に進む。 
 ステップS146では、表示制御部63は、図20のステップS56と同様に、コンテンツ記憶部11から対象コンテンツを取得する。さらに、表示制御部63は、図20のステップS56と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデルの各状態について、その状態に対応する、対象コンテンツのフレームを用いて、状態(に対応するフレーム)の代表画像を生成し、処理は、ステップS146からステップS147に進む。
 ステップS147では、表示制御部63は、アノテーションモデルとトピック対頻出単語テーブルとを用いて、図26のステップS106及びS107と同様の処理を行い、対象コンテンツの各フレームに付与するアノテーション(となる単語)として選択し、対象コンテンツの各フレームに、アノテーションを付与する。
 すなわち、表示制御部63は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。
 さらに、表示制御部63は、トピック対頻出単語テーブル(図23)に基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピックの頻出単語を、そのフレームに付与するアノテーションとして選択する。
 その後、処理は、ステップS147からステップS148に進み、表示制御部63は、図20のステップS58と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデル(対象コンテンツについて、最尤状態系列を求めるのに用いられたアノテーションモデル)を用い、モデルマップ(図16、図17)を生成して、処理は、ステップS149に進む。
 ステップS149では、表示制御部63は、図20のステップS59と同様に、モデルマップを、ディスプレイに表示させ、さらに、モデルマップ上の各状態に、その状態の代表画像とアノテーションとを表示させ、処理は、ステップS150に進む。
 ステップS150では、表示制御部63は、図20のステップS60と同様に、対象コンテンツの再生制御を行う。
 以上のように、表示制御装置16において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求めることにより、対象コンテンツの各フレームに対応する状態を求め、その状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおいて出現頻度が高い単語を、そのフレームトピックが内容を表すフレームに付与するアノテーションとして求め、アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる場合にも、図20の場合と同様に、ユーザは、対象コンテンツに付与されたアノテーションを、一覧することができ、また、アノテーションが表示されるモデルマップ上の状態が指定されると、その状態に対応するフレームの再生を開始するというような、アノテーションを利用したアプリケーションを提供することができる。
 ところで、上述のように、LDAのパラメータ(テキスト用基底空間の基底空間データ)を用いて、テキスト特徴量の次元圧縮を行い、その次元圧縮後のテキスト特徴量であるトピックラベルを含むアノテーション用系列を用いて学習を行うことにより得られるアノテーションモデルによれば、表示制御装置16において、いわば、LDAの潜在トピックを媒介として、アノテーション(となる頻出単語)が、対象コンテンツ(の各フレーム)に付与される。
 このように、潜在トピックを媒介として、アノテーションが対象コンテンツに付与される場合には、対象コンテンツに付与されたアノテーションは、上述したようなモデルマップ(図16、図17)を用いた表示形式等によって、アノテーションモデルの状態ごとに表示する他、潜在トピックごとに表示することができる。
 図29は、対象コンテンツに付与されたアノテーションを、潜在トピックごとに表示した表示例を示す図である。
 すなわち、図29は、LDAの潜在トピックに対応する矩形のトピック欄が、2次元の表形式に並んだトピックリストの例を示している。
 トピックリストには、LDAの潜在トピックの数に等しい数のトピック欄が格子状に配置され、各トピック欄には、1つの潜在トピックが対応付けられる。
 そして、トピック欄には、そのトピック欄に対応する潜在トピック(トピック欄に対応付けられた潜在トピック)の頻出単語が、例えば、出現頻度の高い順に並べて表示される。
 なお、図29では、トピック欄に表示される頻出単語は、トピック欄の大きさの都合で、所定の文字数としての20文字に制限されている。
 また、トピックリストの、あるトピック欄に注目すると、注目する注目トピック欄に、頻出単語が表示されるのは、その注目トピック欄に対応する潜在トピックをフレームトピックとするフレームが、対象コンテンツに存在する場合である。
 したがって、対象コンテンツのいずれのフレームのフレームトピックにも選択されなかった潜在トピックに対応するトピック欄には、頻出単語は表示されない。
 図29では、例えば、左上や右上等のトピック欄に、頻出単語が表示されていないが、このように、頻出単語が表示されていない左上や右上等のトピック欄は、そのトピック欄に対応する潜在トピックをフレームトピックとするフレームが、対象コンテンツに存在しなかったことを表す。
 図30は、図15の表示制御装置16によるトピックリストの表示制御処理を説明するフローチャートである。
 ステップS171ないしS176において、表示制御装置16では、図26のステップS101ないしS106とそれぞれ同様の処理が行われる。
 すなわち、ステップS171において、特徴量抽出部61(図15)は、コンテンツ記憶部11に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部11から取得して、処理は、ステップS172に進む。
 ステップS172では、特徴量抽出部61は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
 ステップS172において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS173に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
 さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部61は、アノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS173からステップS175に進む。
 また、ステップS172において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS174に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
 さらに、特徴量抽出部61は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部61は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS174からステップS175に進む。
 ステップS175では、最尤状態系列算出部62は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
 さらに、最尤状態系列算出部62は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給して、処理は、ステップS175からステップS176に進む。
 ステップS176では、表示制御部63は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、出力確率が最も高い潜在トピックを、フレームトピックとして選択し、処理は、ステップS177に進む。 
 ステップS177では、表示制御部63は、LDAの各潜在トピックに対応するトピック欄を有するトピックリスト(図29)を生成し、処理は、ステップS178に進む。
 ステップS178では、表示制御部63は、トピックリストの各トピック欄に、そのトピック欄に対応する潜在トピックをフレームトピックとする、対象コンテンツのフレームを対応付け、処理は、ステップS179に進む。
 ステップS179では、表示制御部63は、トピック対頻出単語テーブル(図23)に基づき、トピック欄に対応する潜在トピックの頻出単語を、そのトピック欄に対応付けられたフレームに付与するアノテーションとして選択し、そのトピック欄に配置する。
 その後、処理は、ステップS179からステップS180に進み、表示制御部63は、トピックリストを、ディスプレイに表示させ、処理は、ステップS181に進む。
 ステップS181では、表示制御部63は、対象コンテンツの再生制御を行う。
 すなわち、表示制御部63は、例えば、ユーザにより、トピックリスト上のトピック欄が指定されると、そのトピック欄に対応付けられているフレームの再生を開始させる。
 したがって、ユーザは、トピック欄に表示されたアノテーションとしての単語を見て、そのトピック欄に対応付けられているフレームの内容の概要を把握し、興味があれば、トピック欄を指定することにより、そのトピック欄に対応付けられたフレームの再生を行わせることができる。
 なお、表示制御装置16において、対象コンテンツに付与されたアノテーションの表示形式は、ユーザの操作等に従って切り替えることが可能である。
 すなわち、表示制御装置16では、例えば、モデルマップと、トピックリストとの両方を作成し、アノテーションの表示形式を、モデルマップを用いた表示形式と、トピックリストを用いた表示形式との間で、相互に切り替えることができる。
 図31及び図32は、アノテーションの表示形式の切り替えを説明する図である。
 すなわち、図31は、トピックリストを用いたアノテーションの表示形式の例を示す図である。
 ユーザは、トピックリストのトピック欄に表示されたアノテーションとしての単語を見て、そのトピック欄に対応付けられているフレームの内容の概要を把握し、興味を持った場合には、そのトピック欄を指定することにより、そのトピック欄に対応する潜在トピックを、興味がある興味トピックとして選択することができる。
 表示制御装置16は、ユーザによって、興味トピックが選択された場合、興味トピックに選択された潜在トピックに対応するトピック欄(以下、興味トピック欄ともいう)を、強調して表示させることができる。
 図31では、興味トピック欄(となったトピック欄)が、その興味トピック欄に配置されたアノテーションとしての単語に、太線によるアンダーラインが表示されることにより強調されている。
 なお、興味トピック欄の強調の方法は、アンダーラインを表示する方法に限定されるものではない。すなわち、興味トピック欄は、他のトピック欄とは異なる特定の色(例えば、赤等)で表示すること等によって、強調することが可能である。
 また、図31では(図29でも同様)、トピックリストのトピック欄には、アノテーションとしての単語だけを表示することとしたが、トピック欄には、その他、例えば、そのトピック欄に対応付けられたフレームを代表する代表画像を生成して表示することができる。
 図32は、モデルマップを用いたアノテーションの表示形式の例を示す図である。
 すなわち、図32は、図31のトピックリストの表示から切り替えられたモデルマップ(の表示)を示している。
 モデルマップでは、図18及び図19で説明したように、アノテーションモデルの状態の中で、対応するフレーム(対象コンテンツのフレーム)が存在する状態だけが、矩形で表示される。そして、対応するフレームが存在する状態を表す矩形には、その状態に対応するフレームの代表画像が表示され、さらに、下部には、その状態に対応するフレームに付与されたアノテーションとしての単語が表示される。
 そして、現在再生されているフレーム(再生フレーム)に対応する状態については、代表画像に代えて、再生フレームの画像が、代表画像より大きく表示され、アノテーションも、他の状態より大きく表示される。
 表示制御装置16では、トピックリストの表示から切り替えられたモデルマップについては、トピックリストの興味トピック欄に対応付けられたフレームに対応する状態(を表す矩形や、その矩形内の代表画像、アノテーション等)を、強調して表示することができる。
 ここで、図32では、モデルマップ上の、興味トピック欄に対応付けられたフレームに対応する状態が、その状態を表す矩形の下部に、太線が表示されることにより強調されている。
 以上のように、トピックリストの表示から切り替えられたモデルマップにおいて、トピックリストの興味トピック欄に対応付けられたフレームに対応する状態を、強調して表示することにより、ユーザは、トピックリストにおいて、興味トピック欄とするトピック欄を選択した後に、モデルマップに切り替えることで、モデルマップ上で、興味トピックに対応付けられたフレーム、つまり、ユーザが興味を持っている内容のフレームに対応する状態を、一目で認識することができる。
 なお、モデルマップにおいて、ユーザによって、ある状態が選択された場合には、表示制御装置16では、ユーザによって選択された状態である選択状態に対応するフレームのフレームトピックと一致するフレームトピックのフレームに対応する他の状態を検出し、選択状態とともに、強調して表示することができる。
 [特徴量抽出部21の第4の構成例]
 図33は、図2の特徴量抽出部21の第4の構成例を示すブロック図である。
 なお、図33において、図21、又は、図22の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図33の特徴量抽出部21は、画像取得部31、画像特徴量抽出部101、説明テキスト取得部33、テキスト特徴量抽出部34、同期部35、音声取得部102、及び、音声特徴量抽出部103を有する点で、図21の場合と共通する。
 さらに、図33の特徴量抽出部21は、基底空間学習部151、基底空間データ記憶部152、次元圧縮部153、基底空間学習部161、基底空間データ記憶部162、及び、次元圧縮部153を有する点で、図22の場合と共通する。
 そして、図33の特徴量抽出部21は、基底空間学習部201、基底空間データ記憶部202、次元圧縮部203、基底空間学習部211、基底空間データ記憶部212、次元圧縮部213、基底空間学習部221、基底空間データ記憶部222、及び、次元圧縮部223が、新たに設けられている点で、図21及び図22の場合と相違する。
 基底空間学習部201には、画像特徴量抽出部101から、学習用コンテンツの第2画像特徴量が供給される。
 基底空間学習部201は、例えば、基底空間学習部151と同様に、第2画像特徴量を写像するための、第2画像特徴量の次元より小さい次元の画像用基底空間の基底空間データとしてのコードブック等を、画像特徴量抽出部101からの第2画像特徴量を用いて求め、基底空間データ記憶部202に供給する。
 基底空間データ記憶部202は、基底空間学習部201からの基底空間データを記憶する。
 次元圧縮部203には、画像特徴量抽出部101から、学習用コンテンツの第2画像特徴量が供給される。
 次元圧縮部203は、例えば、次元圧縮部153と同様に、基底空間データ記憶部202に記憶された基底空間データに基づき、画像特徴量抽出部101からの第2画像特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の第2画像特徴量を、同期部35に供給する。
 基底空間学習部211には、画像特徴量抽出部101から、学習用コンテンツの第3画像特徴量が供給される。
 基底空間学習部211は、例えば、基底空間学習部151と同様に、第3画像特徴量を写像するための、第3画像特徴量の次元より小さい次元の画像用基底空間の基底空間データとしてのコードブック等を、画像特徴量抽出部101からの第3画像特徴量を用いて求め、基底空間データ記憶部212に供給する。
 基底空間データ記憶部212は、基底空間学習部211からの基底空間データを記憶する。
 次元圧縮部213には、画像特徴量抽出部101から、学習用コンテンツの第3画像特徴量が供給される。
 次元圧縮部213は、例えば、次元圧縮部153と同様に、基底空間データ記憶部212に記憶された基底空間データに基づき、画像特徴量抽出部101からの第3画像特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の第3画像特徴量を、同期部35に供給する。
 基底空間学習部221には、音声特徴量抽出部103から、学習用コンテンツの音声特徴量が供給される。
 基底空間学習部221は、例えば、基底空間学習部151と同様に、音声特徴量を写像するための、音声特徴量の次元より小さい次元の音声用基底空間の基底空間データとしてのコードブック等を、音声特徴量抽出部103からの音声特徴量を用いて求め、基底空間データ記憶部222に供給する。
 基底空間データ記憶部222は、基底空間学習部221からの基底空間データを記憶する。
 次元圧縮部223には、音声特徴量抽出部103から、学習用コンテンツの音声特徴量が供給される。
 次元圧縮部223は、例えば、次元圧縮部153と同様に、基底空間データ記憶部222に記憶された基底空間データに基づき、音声特徴量抽出部103からの音声特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の音声特徴量を、同期部35に供給する。
 図21では、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量を、そのまま用いて、アノテーション用系列が構成されるが、図33では、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の次元圧縮が行われ、その次元圧縮後の第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量から、アノテーション用系列が構成され、アノテーションモデルの学習に用いられる。
 図34は、学習装置12の特徴量抽出部21が図33に示したように構成される場合の、図8のアノテーション付与装置14の特徴量抽出部41(フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15))の構成例を示すブロック図である。
 図34において、アノテーション付与装置14(図8)の特徴量抽出部41は、画像取得部171、画像特徴量抽出部172、基底空間データ記憶部173、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、基底空間データ記憶部183、次元圧縮部184、同期部191、基底空間データ記憶部261、次元圧縮部262、基底空間データ記憶部271、次元圧縮部272、音声取得部281、音声特徴量抽出部282、基底空間データ記憶部283、及び、次元圧縮部284を有する。
 さらに、画像特徴量抽出部172は、第1画像特徴量抽出部172、第2画像特徴量抽出部172、及び、第3画像特徴量抽出部172を有する。
 図34の特徴量抽出部41において、基底空間データ記憶部173は、図33の基底空間学習部151で求められた基底空間データを、基底空間データ記憶部183は、図33の基底空間学習部161で求められた基底空間データを、基底空間データ記憶部261は、図33の基底空間学習部201で求められた基底空間データを、基底空間データ記憶部271は、図33の基底空間学習部211で求められた基底空間データを、基底空間データ記憶部283は、図33の基底空間学習部221で求められた基底空間データを、それぞれ記憶する。
 そして、画像取得部171、第1画像特徴量抽出部172、第2画像特徴量抽出部172、第3画像特徴量抽出部172、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、次元圧縮部184、同期部191、次元圧縮部262、次元圧縮部272、音声取得部281、音声特徴量抽出部282、及び、次元圧縮部284において、対象コンテンツについて、図33の画像取得部31、第1画像特徴量抽出部102、第2画像特徴量抽出部102、第3画像特徴量抽出部102、次元圧縮部153、説明テキスト取得部33、テキスト特徴量抽出部34、次元圧縮部163、同期部35、次元圧縮部203、次元圧縮部213、音声取得部102、音声特徴量抽出部103、及び、次元圧縮部223とそれぞれ同様の処理が行われ、これにより、次元圧縮後の第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量を含むアノテーション用系列が構成される。
 但し、説明テキストを取得することができない対象コンテンツについては、次元圧縮後のテキスト特徴量としてのトピックラベルとして、ダミーのデータを用いて、アノテーション用系列が構成される。
 <第2実施の形態> 
 [本発明の情報処理装置を適用したレコーダの他の一実施の形態]
 図35は、本発明の情報処理装置を適用したレコーダの他の一実施の形態の構成例を示すブロック図である。
 図35のレコーダ(以下、ブラウジングレコーダともいう)は、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
 すなわち、図35において、ブラウジングレコーダは、操作部301、制御部302、コンテンツ取得部310、コンテンツ記憶部311、学習装置312、アノテーションモデル記憶部313、及び、ブラウジング制御装置314を有する。
 操作部301は、図35のブラウジングレコーダの筐体に設けられたボタンや、ブラウジングレコーダを遠隔制御するリモートコマンダ等であり、ユーザによって操作され、その操作に対応した操作信号を、制御部302に供給する。
 制御部302は、操作部301の操作等に応じて、コンテンツ取得部310ないしブラウジング制御部314を制御する。
 コンテンツ取得部310は、テレビジョン放送の番組等の画像を含むコンテンツを取得し、コンテンツ記憶部311に供給する。
 すなわち、コンテンツ取得部310は、例えば、チューナや、STB(Set Top Box)、NIC(Network Interface Card)等のネットワークI/F(Inter face)で構成することができ、この場合、コンテンツを、地上ディジタル放送、衛星ディジタル放送、CATV網、インターネットその他のネットワーク等の、図示せぬ伝送媒体を介して取得する。
 また、コンテンツ取得部310は、例えば、記録媒体を駆動するドライブ等で構成することができ、この場合、コンテンツを、例えば、ビデオカメラが内蔵するハードディスクや、ビデオカメラから取り外されたメモリカード等の半導体メモリ、テープ状記録媒体、ディスク状記録媒体等の記録媒体から取得する。
 なお、以下では、説明を簡単にするため、コンテンツ取得部310は、テレビジョン放送の番組(放送番組)を受信するチューナで構成されることとする。
 コンテンツ記憶部311は、コンテンツ取得部310からのコンテンツを記憶(記録)する。コンテンツ記憶部311へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部311に記憶されたコンテンツ)は、例えば、ユーザによる操作部301の操作に応じて再生される。
 学習装置312は、図1の学習装置12と同様に構成され、コンテンツ記憶部311に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデルを求める学習(統計学習)を行う。
 すなわち、学習装置312は、コンテンツ記憶部311に記憶されたコンテンツのうちの、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、アノテーションモデルの学習に用いる学習用コンテンツに選択する。
 さらに、学習装置312は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、その学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。
 そして、学習装置312は、学習用コンテンツから抽出した画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を構成し、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。 
 学習装置312は、アノテーションモデルの学習を行うと、その学習後のアノテーションモデルを、アノテーションモデル記憶部313に供給する。
 アノテーションモデル記憶部313は、学習装置312から供給されるアノテーションモデルを記憶する。
 ブラウジング制御装置314は、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、コンテンツ記憶部311に記憶されたコンテンツのうちの、シーンを抽出する対象の対象コンテンツから、時間的に連続する1フレーム以上のフレームの集まりであるシーンを抽出し、そのシーンの代表画像を、表示時刻(再生時刻)順に並べて表示させる。
 すなわち、ブラウジング制御装置314は、ユーザが、対象コンテンツの内容を迅速に把握することができるように、対象コンテンツを、シーンに分けて、各シーンを構成するフレームの代表画像と、アノテーションとを、表示時刻順に表示させる。
 また、ブラウジング制御装置314は、対象コンテンツの中から、ユーザが興味を持っているシーンを迅速に探し出すことができるように、対象コンテンツから、ユーザが操作部301を操作することにより入力したキーワードに内容が合致するフレーム(キーワードフレーム)を有するシーンを検出し、各シーンを構成するフレームの代表画像を、表示時刻順に表示させる。
 [ブラウジングレコーダが行う処理の概要]
 図36ないし図39は、図35のブラウジングレコーダが行う処理の概要を説明する図である。
 ここで、番組の中には、複数のコーナから構成される番組がある。例えば、テレビジョン放送のニュース番組は、経済ニュースや、社会ニュース、スポーツニュース等の複数のニューストピックのコーナ(シーン)から構成される。
 かかるニュース番組については、例えば、レコーダにおいて、EPG(Electronic Program Guide)のデータを取得することにより、放送開始時刻や、放送終了時刻、出演者、番組の内容の概要を提示する(表示させる)ことができる。
 しかしながら、レコーダにおいて、EPGのデータを用いて、例えば、ある日のあるチャンネル(放送局)のニュース番組において、どのようなニューストピックが何時何分から取り上げられているかを提示することはできない。
 また、レコーダによれば、レコーダに組み込まれたブラウザにおいて、EPG上に、番組が録画済みかどうかを表示し、EPG上の、録画済みの番組が指定されたときに、その録画済みの番組の再生を、番組の先頭から開始する、いわゆる頭出しを行うことができる。
 しかしながら、レコーダにおいて、録画済みの番組の所定のコーナの頭出しを行うことはできない。
 以上のように、レコーダは、番組を、いわば、番組単位で扱い、コーナ単位では扱わないので、番組"全体"の概要の表示や、番組の頭出しは、行うことができるが、番組のコーナごとの概要の表示や、コーナの頭出しは、行うことができない。
 ところで、番組を、コーナ等の、内容的にまとまったシーンに区切り、そのシーンごとに、シーンの概要を認識することができるような番組のブラウジング(以下、シーンブラウジングともいう)の仕方を、ユーザに提供することができれば便利である。
 レコーダにおいて、前述の、有料サービスである番組メタデータサービスで配信される、番組のコーナごとの開始時刻、終了時刻、出演者、及び、コーナの内容の要約等のメタデータを処理することにより、ユーザがシーンブラウジングを行うことが可能になると考えられるが、そのようなレコーダは提案されていない。
 また、レコーダにおいて、録画済みの番組について、ユーザが所望するコーナの頭出しを行う方法として、ユーザに、所望するコーナの内容を表現する単語を、キーワードとして入力してもらい、録画済みの番組から、ユーザが入力したキーワードを含む字幕が表示されるフレームを検出し、そのフレームから再生を開始する方法が考えられる。
 しかしながら、録画済みの番組から、ユーザが入力したキーワードを含む字幕が表示されるフレームを検出する方法は、字幕がない番組には、適用することができない。さらに、ユーザが所望するコーナに字幕が表示されても、その字幕に、ユーザが入力したキーワードが含まれなければ、ユーザが所望するコーナ(のフレーム)は、検出されない。
 また、レコーダにおいて、録画済みの番組の音声から、ユーザが入力したキーワードを検出し、そのキーワードを含む音声が発話されているフレームから、再生を開始することで、ユーザが所望するコーナの頭出しを行う方法が考えられる。
 しかしながら、録画済みの番組の音声から、ユーザが入力したキーワードを検索する方法では、やはり、ユーザが所望するコーナの音声に、ユーザが入力したキーワードが発話されていなければ、ユーザが所望するコーナ(のフレーム)は、検出されない。
 図35のブラウジングレコーダでは、上述したアノテーションモデルを用いて、シーンを抽出する対象の対象コンテンツから、時間的に連続する1フレーム以上のフレームの集まりであるシーンを抽出し、そのシーンの代表画像を、時刻順に並べて表示させることで、ユーザが、コンテンツを構成するシーンの概要を容易に認識することができるシーンブラウジングを行うことを可能とする。
 すなわち、ブラウジングレコーダでは、アノテーションモデルの学習、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出、及び、シーンの代表画像を、時刻順に並べて表示させる表示制御が行われる。
 図36は、図35のブラウジングレコーダによるアノテーションモデルの学習の概要を説明する図である。
 ブラウジングレコーダでは、制御部302が、シーンブラウジングを行うコンテンツのジャンルを、ブラウジングジャンルに設定する。
 ここで、制御部302は、例えば、ユーザによる操作部301の操作に従って、ブラウジングジャンルの設定を行う。ここでは、例えば、ジャンルとしてのニュースが、ブラウジングジャンルに設定されたこととする。
 ブラウジングレコーダでは、コンテンツ取得部310が、例えば、EPGのデータから、各番組のジャンルを認識し、ジャンルがブラウジングジャンルであるニュースに一致する番組を録画する。すなわち、これにより、ジャンルがブラウジングジャンルに一致するニュース番組が、コンテンツ記憶部311に記憶される。
 そして、ブラウジングレコーダでは、学習装置312が、コンテンツ記憶部311に記憶された、過去の一定期間に(放送されて)録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致し、かつ、字幕のテキストを含む録画番組を、アノテーションモデルの学習に用いる学習用コンテンツとして読み出し、その学習用コンテンツを用いて、マルチストリームHMMであるアノテーションモデルの学習(コンテンツ構造学習)を、図1の学習装置12と同様にして行う。
 そして、学習装置312は、学習後のアノテーションモデルを、アノテーションモデル記憶部313に供給して記憶させる。
 図37は、図35のブラウジングレコーダによる、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出の概要を説明する図である。
 ブラウジングレコーダでは、ブラウジング制御装置314が、コンテンツ記憶部311に記憶された、過去の一定期間に(放送されて)録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致する録画番組を、字幕のテキストの有無に関係なく、対象コンテンツとして読み出し、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、対象コンテンツに、アノテーションを付与するアノテーション付与処理を、図1のアノテーション付与装置14と同様にして行う。
 すなわち、ブラウジング制御装置314は、対象コンテンツについて、アノテーション用系列を構成し、アノテーションモデル記憶部313に記憶されたアノテーションモデル(マルチストリームHMM)において、対象コンテンツのアノテーション用系列が観測される最尤状態系列を求める(状態認識を行う)。
 さらに、ブラウジング制御装置314は、対象コンテンツのアノテーション用系列が観測される最尤状態系列に基づいて、対象コンテンツの各フレーム(各時刻)に、アノテーション(となる単語)を付与する。
 そして、ブラウジング制御装置314は、対象コンテンツから、同一のアノテーションが付与されている、時間的に連続する1フレーム以上のフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツを、シーンに区分する。
 ここで、ある注目フレームと同一のアノテーションが付与されているフレームには、アノテーションとして付与されている単語すべてが注目フレームと一致するフレームの他、アノテーションとして付与されている単語のうちの一部の単語が注目フレームと一致するフレームを含めることができる。
 図38は、図35のブラウジングレコーダによる、シーンの代表画像を、表示時刻順に並べて表示させる表示制御の概要を説明する図である。
 ブラウジングレコーダにおいて、ブラウジング制御装置314は、対象コンテンツのすべてを、シーンに区分すると、各対象コンテンツについて、シーンの代表画像を、表示時刻順に並べて表示させる。
 すなわち、ブラウジング制御装置314は、対象コンテンツの各シーンについて、例えば、そのシーンの最初のフレームのサムネイルを、代表画像として生成し、対象コンテンツの各シーンの代表画像を、表示時刻順に、例えば、上から下方向(縦方向)等の一方向に並べた画像(以下、時刻順概要表示画像ともいう)を生成する。
 そして、ブラウジング制御装置314は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を表示させる。
 ここで、ブラウジング制御装置314では、時刻順概要表示画像の各シーンの代表画像の縦方向(時刻方向)の長さは、そのシーンの時間(そのシーンを構成するフレーム数)に比例させることができる。
 また、ブラウジング制御装置314では、時刻順概要表示画像の各シーンの代表画像については、例えば、図38に示すように、吹き出しの形等で、シーンを構成するフレームに付与されたアノテーションとしての単語を表示させることができる。
 さらに、ブラウジング制御装置314では、アノテーションとしての単語と、対象コンテンツとしてのニュース番組において、その単語が使用されるときのニュースのジャンル(以下、メタジャンルともいう)とを対応付けたメタジャンル辞書を用意しておき、時刻順概要表示画像の各シーンの代表画像については、アノテーションとともに、又は、アノテーションに代えて、メタジャンルを表示させることができる。
 以上のように、ブラウジング制御装置314によれば、ブラウジングジャンルの番組、すなわち、ここでは、ニュース番組について、時刻順概要表示画像が、その時刻順概要表示画像の各シーン(を構成するフレーム)に付与されたアノテーションとともに、EPG上に表示される。
 したがって、ユーザは、時刻順概要表示画像とアノテーションを見て、過去の一定期間に録画されたニューズ番組を構成するシーンの概要を、容易に認識することができる。
 また、ブラウジング制御装置314では、対象コンテンツから、同一のアノテーションが付与されている、時間的に連続する1フレーム以上のフレームの集まりを、シーンとして抽出することにより、対象コンテンツを、シーンに区分するので、シーンは、対象コンテンツであるニュース番組の、例えば、経済ニュースや、社会ニュース、スポーツニュース等のコーナに一致している蓋然性が高い。
 したがって、EPG上に表示された、ニュース番組の時刻順概要表示画像によれば、ユーザは、各ニュース番組が、どのようなコーナで構成されているかを、一見して(いわゆる、パッと見で)把握することができる。
 さらに、ユーザは、例えば、スポーツニュースに興味がある場合に、ニュース番組の中で、スポーツニュースのコーナが、そのくらいの時刻から、どのくらいの時間だけ放送されているのかを把握することができる。
 なお、ブラウジング制御装置314では、対象コンテンツを、シーンに区分するときに、例えば、対象コンテンツの先頭(のフレーム)を基準とする各シーンの開始時刻と終了時刻とを検出することができる。
 この場合、ブラウジング制御装置314では、EPG上に表示された、ニュース番組の時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301の操作によって指定されたときに、そのシーンを、開始時刻から再生することができる。すなわち、ニュース番組の、あるコーナ(シーン)の頭出しを行うことができる。
 また、ブラウジング制御装置314では、ニュース番組の時刻順概要表示画像として、ニュース番組のすべてのシーン(コーナ)の代表画像を並べた画像の他、ニュース番組のシーン(コーナ)のうちの、ユーザが操作部301を操作することにより入力したキーワードによって内容が表現されるコーナの代表画像を並べた画像を生成し、EPG上に表示させることができる。
 すなわち、図39は、ユーザが入力したキーワードによって内容が表現されるコーナ(シーン)のみの代表画像を、表示時刻順に並べた時刻順概要表示画像を表示させる表示制御の概要を説明する図である。
 ユーザは、操作部301を操作することにより、キーワードを含む検索クエリを入力することができる。
 ここで、検索クエリには、キーワードの他、図12ないし図14で説明したようなAND検索式やOR検索式を含めることができる。
 図35のブラウジングレコーダでは、ブラウジング制御装置314が、コンテンツ記憶部311に記憶された、過去の一定期間に録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致する録画番組を、対象コンテンツとして読み出し、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、対象コンテンツから、ユーザが入力した検索クエリに含まれるキーワードに内容が合致するフレームであるキーワードフレームを検索するフレーム検索処理を、図1のフレーム検索装置15と同様にして行う。
 そして、ブラウジング制御装置314は、対象コンテンツから検索したキーワードフレームから、時間的に連続する1フレーム以上のキーワードフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツのキーワードフレームを、シーンに区分する。
 すなわち、ブラウジング制御装置314は、対象コンテンツのキーワードフレームのうちの、最初のキーワードフレームを注目フレームに選択し、注目フレームを、1番目のシーンを構成するフレームとして、1番目のシーンに含める。
 さらに、ブラウジング制御装置314は、対象コンテンツのキーワードフレームのうちの、次のキーワードフレームを新たな注目フレームに選択し、注目フレームが、直前に注目フレームであったキーワードフレーム(以下、直前フレームともいう)と表示時刻が連続しているキーワードフレームである場合、つまり、対象コンテンツにおいて、注目フレームが、直前フレームの次のフレームである場合、注目フレームを、1番目のシーンを構成するフレームとして、1番目のシーンに含める。
 その後、ブラウジング制御装置314は、対象コンテンツのキーワードフレームのうちの、次のキーワードフレームを新たな注目フレームに選択し、注目フレームが、直前フレームと表示時刻が連続しているキーワードフレームである間は、注目フレームを、1番目のシーンを構成するフレームとして、1番目のシーンに含めることを繰り返す。
 一方、注目フレームが、直前フレームと表示時刻が連続していないキーワードフレームである場合、つまり、対象コンテンツにおいて、注目フレームが、直前フレームの次の次のフレーム以降のフレームである場合、ブラウジング制御装置314は、注目フレームを、新たなシーンとしての2番目のシーンを構成するフレームとして、2番目のシーンに含める。
 以下、同様にして、ブラウジング制御装置314は、対象コンテンツのキーワードフレームを、1以上のシーンに区分する。
 その後、ブラウジング制御装置314は、各対象コンテンツについて、シーンの代表画像を、表示時刻順に並べて表示させる。
 すなわち、ブラウジング制御装置314は、対象コンテンツのキーワードフレームから構成される各シーンについて、例えば、そのシーンの最初のフレームのサムネイルを、代表画像として生成し、対象コンテンツの各シーンの代表画像を、表示時刻順に、例えば、上から下方向等の一方向に並べた時刻順概要表示画像を生成する。
 そして、ブラウジング制御装置314は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を表示させる。
 ここで、ブラウジング制御装置314では、図38の場合と同様に、時刻順概要表示画像の各シーンの代表画像の縦方向の長さは、そのシーンの時間に比例させることができる。さらに、図38の場合と同様に、時刻順概要表示画像の各シーンの代表画像については、シーンを構成するフレームに付与されるアノテーションとしての単語や、メタジャンルを表示させることができる。
 [ブラウジング制御装置314の構成例]
 図40は、図35のブラウジング制御装置314の構成例を示すブロック図である。
 ブラウジング制御装置314は、アノテーション付与部331、フレーム検索部332、シーン構成部333、及び、表示制御部334を有する。
 アノテーション付与部331は、コンテンツ記憶部311に記憶された対象コンテンツを、順次、注目コンテンツに選択する。
 そして、アノテーション付与部331は、図1のアノテーション付与装置14と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、注目コンテンツの各フレームに、アノテーションを付与し、注目コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号(第tフレームのt)とを対応付けたアノテーション単語情報を、シーン構成部333に供給する。
 フレーム検索部332は、コンテンツ記憶部311に記憶された対象コンテンツを、順次、注目コンテンツに選択する。
 そして、フレーム検索部332は、図1のフレーム検索装置15と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、注目コンテンツからキーワードフレームを検索し、そのキーワードフレームの時系列順の並びであるキーワードダイジェストを、シーン構成部333に供給する。
 シーン構成部333は、アノテーション付与部331から供給されるアノテーション単語情報や、フレーム検索部332から供給されるキーワードダイジェストを用いて、コンテンツ記憶部311に記憶された注目コンテンツをシーンに区分する(注目コンテンツのシーンを構成する)。
 さらに、シーン構成部333は、注目コンテンツの各シーンの代表画像を生成し、その各シーンの代表画像を、表示時刻順に、上から下方向に並べた時刻順概要表示画像を生成し、表示制御部334に供給する。
 ここで、シーン構成部333は、注目コンテンツを、シーンに区分するときに、各シーンの開始時刻、及び、終了時刻(以下、シーン時刻情報ともいう)を検出し、時刻順概要表示画像とともに、表示制御部334に供給する。
 表示制御部334は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの注目コンテンツの番組欄に、その注目コンテンツの時刻順概要表示画像を表示させる。
 また、表示制御部334は、アノテーション付与部331で得られたアノテーション単語情報を用いて、例えば、図38に示したように、シーンを構成するフレームに付与されたアノテーションとしての単語を表示させる。
 さらに、表示制御部334は、EPG上に表示された時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301(図35)の操作によって指定されることによって、そのシーンの頭出しが指示された場合、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、頭出しを行うシーンの開始時刻を、シーン構成部333からのシーン時刻情報から認識する。
 そして、表示制御部334は、コンテンツ記憶部311から、頭出しコンテンツを読み出し、頭出しを行うシーンから再生する再生制御を行う。
 [ブラウジングレコーダの処理]
 以下、図35のブラウジングレコーダで行われる各種の処理を説明する。
 図41は、図35のブラウジングレコーダで行われる設定処理を説明するフローチャートである。
 設定処理では、各種の設定が行われる。
 すなわち、設定処理では、ステップS211において、制御部302(図35)が、アノテーションモデルの学習を開始する時刻である学習開始時刻の設定を行い、処理は、ステップS212に進む。
 ここで、学習開始時刻については、ブラウジングレコーダの工場等において、例えば、22時等の所定の時刻を、デフォルトの時刻に設定しておき、そのデフォルトの時刻を、学習開始時刻に設定することができる。
 また、学習開始時刻は、ユーザの操作に従って設定することができる。すなわち、例えば、ユーザが、操作部301(図35)を操作することにより、学習開始時刻となる時刻を入力した場合には、その時刻を、学習開始時刻に設定することができる。
 なお、学習開始時刻としては、例えば、曜日ごとに異なる時刻を設定することができる。
 また、学習開始時刻の設定では、カレンダを表示し、ユーザに、一日ごとに異なる時刻を、学習開始時刻として入力してもらうことが可能である。
 さらに、学習開始時刻としては、ユーザが操作部301を操作することにより、過去に、学習開始時刻として入力した時刻を設定することが可能である。
 ステップS212では、制御部302は、学習用コンテンツを取得する学習用コンテンツ取得期間を設定し、処理は、ステップS213に進む。
 ここで、制御部302では、学習開始時刻から1週間ないし数週間等だけ遡った時刻から、学習開始時刻(の直前)までの期間を、デフォルトの期間として、そのデフォルトの期間を、学習用コンテンツ取得期間に設定することができる。
 また、制御部302では、ユーザによる操作部301の操作に従った、学習開始時刻以前の期間を、学習用コンテンツ取得期間に設定することができる。
 ステップS213では、制御部302は、シーンブラウジングを行う対象のコンテンツ、すなわち、ブラウジング制御装置314(図35、図40)において、シーンを抽出する対象の対象コンテンツを取得する対象コンテンツ取得期間を設定し、処理は、ステップS214に進む。
 ここで、制御部302は、例えば、学習開始時刻から1週間等だけ遡った時刻から、学習開始時刻(の直前)までの期間を、デフォルトの期間として、そのデフォルトの期間を、対象コンテンツ取得期間に設定する。
 また、制御部302では、ユーザによる操作部301の操作に従って、対象コンテンツ取得期間を設定することができる。
 但し、制御部302は、学習用コンテンツ取得期間と重複する期間を、対象コンテンツ取得期間に設定する。したがって、対象コンテンツ取得期間は、学習用コンテンツ取得期間に包含される。
 学習用コンテンツ取得期間と重複する期間を、対象コンテンツ取得期間に設定することにより、内容がそれほど異ならないコンテンツを、学習用コンテンツ、及び、対象コンテンツとして用いることができる。
 すなわち、例えば、オリンピックが開催されている時期のコンテンツを、対象コンテンツとする場合に、やはり、オリンピックが開催されている時期のコンテンツを、学習用コンテンツとして学習を行ったアノテーションモデルを用いて、アノテーション付与処理、及び、フレーム検索処理を行うことができる。
 ステップS214では、制御部302は、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)の中で、学習用コンテンツ取得期間に放送されるコンテンツを、録画対象のコンテンツである録画対象コンテンツに設定する。
 そして、制御部302は、録画対象コンテンツの録画予約を行って、すなわち、録画対象コンテンツが放送されるチャンネル、録画を開始する録画開始時刻(録画対象コンテンツの放送開始時刻)、及び、録画を終了する録画終了時刻(録画対象コンテンツの放送終了時刻)の設定を行って、設定処理は、終了する。
 ここで、上述したように、対象コンテンツ取得期間は、学習用コンテンツ取得期間に包含されるので、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)の中で、学習用コンテンツ取得期間に放送されるニュース番組が、録画対象コンテンツに設定されることにより、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)の中で、対象コンテンツ取得期間に放送されるニュース番組も、録画対象コンテンツに設定される。
 なお、ジャンルがブラウジングジャンルであるニュースのコンテンツの中からの、録画対象コンテンツの設定は、ユーザによる操作部301の操作に従って行うことが可能である。
 すなわち、制御部302では、EPG上に、学習用コンテンツ取得期間に放送される、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)を、図示せぬディスプレイに表示させ、そのEPG上から、ユーザが操作部301を操作することにより選択したニュース番組を、録画対象コンテンツに設定することができる。
 図42は、図35のブラウジングレコーダで行われるコンテンツ取得関連処理を説明するフローチャートである。
 コンテンツ取得関連処理では、録画対象コンテンツの取得に関連する処理が行われる。
 すなわち、コンテンツ取得関連処理では、ステップS221において、制御部302は、現在時刻が、任意の録画対象コンテンツの録画開始時刻であるかどうかを判定する。
 ステップS221において、現在時刻が録画開始時刻であると判定された場合、処理は、ステップS222に進み、制御部302は、録画対象コンテンツの録画を、録画終了時刻まで行うように、コンテンツ取得部310を制御し、処理は、ステップS221に戻る。
 ここで、コンテンツ取得部310は、制御部302の制御に従って、録画対象コンテンツの予約録画を行い、コンテンツ記憶部311に記憶させる。
 一方、ステップS221において、現在時刻が録画開始時刻でないと判定された場合、処理は、ステップS222をスキップして、ステップS223に進み、制御部302は、コンテンツ記憶部311に記憶(録画)されたコンテンツの中に、消去条件を満たすコンテンツがあるかどうかを判定する。
 ここで、消去条件とは、コンテンツを消去する条件であり、例えば、学習用コンテンツ取得期間より前に放送(録画)されたことを採用することができる。
 この場合、コンテンツ記憶部311に記憶されたコンテンツの中に、学習用コンテンツ取得期間より前に放送されたコンテンツがあれば、消去条件を満たすコンテンツがあると判定される。
 ステップS223において、コンテンツ記憶部311に記憶されたコンテンツの中に、消去条件を満たすコンテンツがあると判定された場合、処理は、ステップS224に進み、制御部302は、コンテンツ記憶部311に記憶されたコンテンツの中の、消去条件を満たすコンテンツを消去して、処理は、ステップS221に戻る。
 ここで、消去条件を満たすコンテンツを、コンテンツ記憶部311から消去することにより、コンテンツ記憶部311の記憶容量が圧迫されることを防止することができる。
 なお、ユーザは、操作部301を操作することにより、コンテンツ記憶部311に記憶されたコンテンツに、いわゆるプロテクトをかけることができる。
 制御部302は、プロテクトがかけられているコンテンツについては、消去条件を満たしても、消去を行わない。
 一方、ステップS223において、コンテンツ記憶部311に記憶されたコンテンツの中に、消去条件を満たすコンテンツがないと判定された場合、処理は、ステップS224をスキップして、ステップS221に戻る。
 なお、図35のブラウジングレコーダの性能によっては、コンテンツの予約録画を行いながら、学習装置312において、そのコンテンツの各フレームの特徴量の抽出を行うことができる。
 学習装置312において抽出された特徴量は、学習装置312でのアノテーションモデルの学習の他、ブラウジング制御装置314(図40)のアノテーション付与部331でのアノテーション付与処理や、フレーム検索部332でのフレーム検索処理に用いることができる。
 また、本実施の形態では、コンテンツ取得部310は、テレビジョン放送の番組を受信するチューナで構成されるが、コンテンツ取得部310が、複数のチューナを有する場合には、録画(放送)の時間帯が重複する複数の録画対象コンテンツがあっても、コンテンツ取得部310が有するチューナの数を限度として、録画の時間帯が重複する複数の録画対象コンテンツの録画を行うことができる。
 なお、録画の時間帯が重複する録画対象コンテンツの数が、コンテンツ取得部310が有するチューナの数を超える場合には、コンテンツ取得部310は、所定の録画ルールに従って、チューナの数に等しい数の録画対象コンテンツを、優先的に録画する。
 録画ルールとしては、例えば、録画開始時刻が早いコンテンツほど、優先的に録画することや、録画開始時刻が同一のコンテンツどうしについては、字幕のテキストを含むコンテンツを、優先的に録画すること等を採用することができる。
 また、ユーザは、操作部301を操作することにより、録画の時間帯が重複する複数の録画対象コンテンツについて、録画の優先順位を設定することができる。ユーザが録画の優先順位を設定した場合、録画ルールにかかわらず、ユーザが設定した優先順位で、コンテンツの録画が行われる。
 ここで、コンテンツ記憶部311には、録画がされたコンテンツ(及びその特徴量)を、字幕のテキストを含むコンテンツと、含まないコンテンツとに分けて記憶させておくことができる。
 図35のブラウジングレコーダにおいて、予約録画によって、学習用コンテンツ取得期間に放送された録画対象コンテンツがコンテンツ記憶部311に記憶され、(現在時刻が)学習開始時刻となると、学習装置312は、コンテンツ記憶部311に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)のうちの、学習用コンテンツ取得期間に放送されたコンテンツの中から、字幕のテキストを有するコンテンツを、学習用コンテンツとして選択する。
 なお、字幕のテキストを有しないコンテンツであっても、例えば、番組メタデータサービス等から、説明テキストとなる番組のメタデータを取得することができるコンテンツについては、学習用コンテンツとして選択することが可能である。
 学習装置312(図35)は、学習用コンテンツの選択後、図1の学習装置12と同様に、学習用コンテンツから、アノテーション用系列を構成し、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
 そして、学習装置312は、学習後のアノテーションモデルを、アノテーションモデル記憶部313に供給して記憶させる。
 図43は、ブラウジング制御装置314が、アノテーションモデルを用いて行う処理(ブラウジング制御処理)を説明するフローチャートである。
 ユーザが、例えば、ジャンルがブラウジングジャンルの番組のブラウジングを行うように、操作部301を操作すると、ブラウジング制御装置314は、ブラウジング制御処理を開始する。
 ブラウジング制御処理では、ステップS241において、ブラウジング制御装置314(図40)のアノテーション付与部331が、コンテンツ記憶部311に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)のうちの、対象コンテンツ取得期間に放送されたコンテンツのすべてを、対象コンテンツに選択し、処理は、ステップS242に進む。
 ステップS242では、アノテーション付与部331は、図1のアノテーション付与装置14と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、各対象コンテンツの各フレームに、アノテーション(となる単語)を付与し、各対象コンテンツについて、各フレームに付与されたアノテーションを含むアノテーション単語情報を、シーン構成部333に供給して、処理は、ステップS243に進む。
 ステップS243では、シーン構成部333が、コンテンツ記憶部311に記憶された各対象コンテンツについて、アノテーション付与部331からのアノテーション単語情報に基づき、同一のアノテーションが付与されている、時間的に連続する1フレーム以上のフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツを、シーンに区分する。
 さらに、シーン構成部333は、各対象コンテンツについて、各シーンの開始時刻、及び、終了時刻であるシーン時刻情報を検出し、処理は、ステップS244に進む。
 ステップS244では、シーン構成部333は、各対象コンテンツについて、対象コンテンツを構成する各シーンの代表画像を生成し、処理は、ステップS245に進む。
 ステップS245では、シーン構成部333は、各対象コンテンツについて、対象コンテンツを構成する各シーンの代表画像を、表示(再生)時刻順に、上から下方向に並べた時刻順概要表示画像を生成する。
 そして、シーン構成部333は、各対象コンテンツについて、時刻順概要表示画像を、シーン時刻情報、及び、アノテーション単語情報とともに、表示制御部334に供給して、処理は、ステップS245からステップS246に進む。
 ステップS246では、表示制御部334は、EPGのデータを取得(受信)し、そのEPGのデータを用いて、EPG(の画像)を生成する。
 さらに、表示制御部334は、各対象コンテンツについて、EPG上の対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を配置するとともに、その時刻順概要表示画像の各シーンの代表画像の近傍に、例えば、図38に示したように、吹き出しの形で、シーンを構成するフレームに付与されたアノテーションとしての単語を配置する。
 ここで、表示制御部334は、シーンを構成するフレームに付与されたアノテーションとしての単語を、シーン構成部333からのアノテーション単語情報から認識する。
 その後、処理は、ステップS246からステップS247に進み、表示制御部334は、時刻順概要表示画像とアノテーションとが配置されたEPGを、図示せぬディスプレイに表示させ、処理は、ステップS248に進む。
 ステップS248では、表示制御部334は、対象コンテンツの再生制御を行う。
 すなわち、表示制御部334は、EPG上に表示された、対象コンテンツの時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301の操作によって指定されると、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、ユーザによって代表画像が指定されたシーンの開始時刻を、シーン構成部333からのシーン時刻情報から認識する。
 そして、表示制御部334は、コンテンツ記憶部311から、頭出しコンテンツとしての対象コンテンツを読み出し、その対象コンテンツの再生を、ユーザによって代表画像が指定されたシーンの開始時刻から開始する再生制御を行う。
 ところで、表示制御部334は、時刻順概要表示画像とアノテーションとが配置されたEPGを表示するときに、キーワード(を含む検索クエリ)を入力するキーワード入力欄も、図示せぬディスプレイに表示させることができる。
 キーワード入力欄には、ユーザが操作部301(図35)を操作することにより、キーワード(を含む検索クエリ)を入力することができ、ブラウジング制御部314は、キーワード入力欄に、キーワードが入力されると、各対象コンテンツについて、対象コンテンツのシーン(コーナ)のうちの、ユーザが操作部301を操作することにより入力したキーワードによって内容が表現されるコーナのみの代表画像を並べた画像を生成し、EPG上に表示させる。
 すなわち、図44は、ユーザがキーワードを入力した場合にブラウジング制御装置314が行う処理を説明するフローチャートである。
 ユーザが操作部301(図35)を操作することにより、キーワード入力欄にキーワード(を含む検索クエリ)を入力すると、ステップS261において、ブラウジング制御装置314(図40)のフレーム検索部332が、コンテンツ記憶部311に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)のうちの、対象コンテンツ取得期間に放送されたコンテンツのすべてを、対象コンテンツに選択し、処理は、ステップS262に進む。
 すなわち、ステップS261では、コンテンツ記憶部311(図35)に記憶されたコンテンツのうちの、図43のステップS241において対象コンテンツに選択されるコンテンツが、対象コンテンツとして選択される。
 ステップS262では、フレーム検索部332が、図1のフレーム検索装置15と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用い、各対象コンテンツについて、ユーザが入力したキーワードに対するキーワード合致度が高いフレームであるキーワードフレームを検索し、そのキーワードフレームを時系列に並べたキーワードダイジェストを生成して、シーン構成部333(図40)に供給する。
その後、処理は、ステップS262からステップS263に進み、シーン構成部333は、各対象コンテンツについて、フレーム検索部332からのキーワードダイジェストを構成するキーワードフレームから、時間的に連続する1フレーム以上のフレームの集まり(表示(再生)時刻が連続しているフレームの集まり)を、シーンとして抽出し、これにより、対象コンテンツのキーワードダイジェストを、シーンに区分する。
 さらに、シーン構成部333は、各対象コンテンツについて、各シーンの開始時刻、及び、終了時刻であるシーン時刻情報を検出し、処理は、ステップS264に進む。
 ステップS264では、シーン構成部333は、各対象コンテンツについて、対象コンテンツのキーワードダイジェストを構成する各シーンの代表画像を生成し、処理は、ステップS265に進む。
 ステップS265では、シーン構成部333は、各対象コンテンツについて、対象コンテンツのキーワードダイジェストを構成する各シーンの代表画像を、表示(再生)時刻順に、上から下方向に並べた時刻順概要表示画像を生成する。
 そして、シーン構成部333は、各対象コンテンツについて、時刻順概要表示画像を、シーン時刻情報とともに、表示制御部334に供給して、処理は、ステップS265からステップS266に進む。
 ステップS266では、表示制御部334は、EPGのデータを取得(受信)し、そのEPGのデータを用いて、EPG(の画像)を生成する。
 さらに、表示制御部334は、各対象コンテンツについて、EPG上の対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を配置する。
 その後、処理は、ステップS266からステップS267に進み、表示制御部334は、時刻順概要表示画像が配置されたEPGを、図示せぬディスプレイに表示させ、処理は、ステップS268に進む。
 ステップS268では、表示制御部334は、対象コンテンツの再生制御を行う。
 すなわち、表示制御部334は、EPG上に表示された、対象コンテンツの時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301の操作によって指定されると、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、ユーザによって代表画像が指定されたシーンの開始時刻を、シーン構成部333からのシーン時刻情報から認識する。
 そして、表示制御部334は、コンテンツ記憶部311から、頭出しコンテンツとしての対象コンテンツを読み出し、その対象コンテンツの再生を、ユーザによって代表画像が指定されたシーンの開始時刻から開始する再生制御を行う。
 なお、ユーザは、操作部301を操作することによって、EPG上の、時刻順概要表示画像が配置された番組欄を指定することができる。
 この場合、表示制御部334では、ユーザによって指定された番組欄に対応する対象コンテンツのキーワードダイジェストを再生する再生制御を行うことができる。
 キーワードダイジェストの再生では、そのキーワードダイジェストを構成するキーワードフレームを、時系列に(表示時刻順で)再生することや、キーワード合致度が高い順に再生することができる。
 なお、ブラウジングジャンルは、ニュースに限定されるものではない。
 また、時刻順概要表示画像は、EPG上ではなく、単独で表示することができる。すなわち、1以上の対象コンテンツの時刻順概要表示画像は、先頭の位置(最初のシーンの代表画像の位置)を揃えて、時刻順概要表示画像を構成するシーンの代表画像が並ぶ方向(本実施の形態では、縦方向)と直交する方向(本実施の形態では、横方向)に並べて表示することができる。
 さらに、図35のブラウジングレコーダにおいて、学習用コンテンツ及び対象コンテンツとして用いるコンテンツは、テレビジョン放送の放送番組の他、インターネット上のサーバから提供されるコンテンツ等を採用することができる。
 [本発明を適用したコンピュータの説明]
 次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 そこで、図45は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
 あるいはまた、プログラムは、リムーバブル記録媒体411に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体411としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク405にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)402を内蔵しており、CPU402には、バス401を介して、入出力インタフェース410が接続されている。
 CPU402は、入出力インタフェース410を介して、ユーザによって、入力部407が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、CPU402は、ハードディスク405に格納されたプログラムを、RAM(Random Access Memory)404にロードして実行する。
 これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
 なお、入力部407は、キーボードや、マウス、マイク等で構成される。また、出力部406は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
 11 コンテンツ記憶部, 12 学習装置, 13 アノテーションモデル記憶部, 14 アノテーション付与装置, 15 フレーム検索装置, 16 表示制御装置, 21 特徴量抽出部, 22 モデル学習部, 31 画像取得部, 32 画像特徴量抽出部, 33 説明テキスト取得部, 34 テキスト特徴量抽出部, 35 同期部, 41 特徴量抽出部, 42 最尤状態系列算出部, 43 単語選択部, 51 特徴量抽出部, 52 最尤状態系列算出部, 53 キーワード合致度算出部, 54 キーワード供給部, 55 フレーム選択部, 61 特徴量抽出部, 62 最尤状態系列算出部, 63 表示制御部, 101 画像特徴量抽出部, 101 第1画像特徴量抽出部, 101 第2画像特徴量抽出部, 101 第3画像特徴量抽出部, 102 遁世取得部, 103 音声特徴量抽出部, 151 基底空間学習部, 152 基底空間データ記憶部, 153 次元圧縮部, 161 基底空間学習部, 162 基底空間データ記憶部, 163 次元圧縮部, 171 画像取得部, 172 画像特徴量抽出部, 172 第1画像特徴量抽出部, 172 第2画像特徴量抽出部, 172 第3画像特徴量抽出部, 173 基底空間データ記憶部, 174 次元圧縮部, 181 説明テキスト取得部, 182 テキスト特徴量抽出部, 183 基底空間データ記憶部, 184 次元圧縮部, 191 同期部, 201 基底空間学習部, 202 基底空間データ記憶部, 203 次元圧縮部, 211 基底空間学習部, 212 基底空間データ記憶部, 213 次元圧縮部, 221 基底空間学習部, 222 基底空間データ記憶部, 223 次元圧縮部, 261 基底空間データ記憶部, 262 次元圧縮部, 271 基底空間データ記憶部, 272 次元圧縮部, 281 音声取得部, 282 音声特徴量抽出部, 283 基底空間データ記憶部, 284 次元圧縮部, 301 操作部, 302 制御部, 310 コンテンツ取得部, 311 コンテンツ記憶部, 312 学習装置, 313 アノテーションモデル記憶部, 314 ブラウジング制御装置, 331 アノテーション付与部, 332 フレーム検索部, 333 シーン構成部, 334 表示制御部, 401 バス, 402 CPU, 403 ROM, 404 RAM, 405 ハードディスク, 406 出力部, 407 入力部, 408 通信部, 409 ドライブ, 410 入出力インタフェース, 411 リムーバブル記録媒体

Claims (20)

  1.  学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出する特徴量抽出手段と、
     前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うモデル学習手段と
     を備える情報処理装置。
  2.  前記学習用コンテンツは、字幕のテキストを含み、
     前記説明テキストは、前記学習用コンテンツに含まれる字幕のテキストである
     請求項1に記載の情報処理装置。
  3.  前記特徴量抽出手段は、
      所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、1つの文書として抽出し、
      前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出する
     請求項2に記載の情報処理装置。
  4.  前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与するアノテーション付与手段をさらに備える
     請求項2に記載の情報処理装置。
  5.  前記特徴量抽出手段は、
      所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、1つの文書として抽出し、
      前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出し、
     前記アノテーション付与手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
      前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される前記多項分布において頻度が高い単語を、前記注目フレームに付与するアノテーションとして選択する
     請求項4に記載の情報処理装置。
  6.  前記アノテーションモデルを用いて、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、前記キーワードフレームを検索するフレーム検索手段をさらに備える
     請求項2に記載の情報処理装置。
  7.  前記特徴量抽出手段は、
      所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、1つの文書として抽出し、
      前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出し、
     前記フレーム検索手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
      前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される前記多項分布において、前記所定のキーワードの頻度が高い場合、前記注目フレームを、前記キーワードフレームとして選択する
     請求項6に記載の情報処理装置。
  8.  前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御手段をさらに備える
     請求項2に記載の情報処理装置。
  9.  前記特徴量抽出手段は、
      所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、1つの文書として抽出し、
      前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出し、
     前記表示制御手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求めることにより、前記対象コンテンツの各フレームに対応する状態を求め、
      前記状態において観測される多項分布に基づき、その状態に対応するフレームに付与するアノテーションを求め、
      前記アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる
     請求項8に記載の情報処理装置。
  10.  前記表示制御手段は、
      前記アノテーションモデルの1つの状態から他の1つの状態への状態間距離を、前記1つの状態から前記他の1つの状態への状態遷移確率に基づいて求め、
      前記アノテーションモデルの状態が配置されるマップであるモデルマップ上の、前記1つの状態から前記他の1つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、
      前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを表示させ、
      前記モデルマップ上の状態に、前記状態に対応するフレームを代表する代表画像と、前記状態に対応するフレームに付与するアノテーションを表示させる
     請求項9に記載の情報処理装置。
  11.  前記特徴量抽出手段は、前記画像特徴量、及び、テキスト特徴量の次元を小さくする次元圧縮を行い、
     前記モデル学習手段は、前記次元圧縮後の前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームを、アノテーション用系列として用いて、アノテーションモデルの学習を行う
     請求項2に記載の情報処理装置。
  12.  前記特徴量抽出手段は、
      前記画像特徴量を写像するための、前記画像特徴量の次元より小さい次元の画像用基底空間の基底空間データを、前記画像特徴量を用いて求め、
      前記画像用基底空間の基底空間データに基づき、前記画像特徴量の次元圧縮を行い、
      前記テキスト特徴量を写像するための、前記テキスト特徴量の次元より小さい次元のテキスト用基底空間の基底空間データを、前記テキスト特徴量を用いて求め、
      前記テキスト用基底空間の基底空間データに基づき、前記テキスト特徴量の次元圧縮を行う
     請求項11に記載の情報処理装置。
  13.  前記特徴量抽出手段は、
      前記画像特徴量を用いて、ベクトル量子化に用いるコードブックを、前記画像用基底空間の基底空間データとして求め、
      前記コードブックを用いて、前記画像特徴量のベクトル量子化を行うことにより、セントロイドベクトルを表すコードを、次元圧縮後の画像特徴量として求める
     請求項12に記載の情報処理装置。
  14.  前記特徴量抽出手段は、
      所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、1つの文書として抽出し、
      前記文書において各単語が出現する頻度を、前記テキスト特徴量として抽出し、
      前記学習用コンテンツから得られる文書を用いて、LDA(Latent Dirichlet Allocation)の学習を行うことにより、前記LDAのパラメータを、テキスト用基底空間の基底空間データとして求め、
      前記LDAのパラメータを用いて、前記文書から得られた前記テキスト特徴量を、その文書に対する前記LDAの各潜在トピックの尤度であるトピック尤度に変換し、前記トピック尤度が最大の潜在トピックを表すトピックラベルを、次元圧縮後のテキスト特徴量として求める
     請求項12に記載の情報処理装置。
  15.  前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与するアノテーション付与手段をさらに備え、
     前記特徴量抽出手段は、
      前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
     前記アノテーション付与手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
      前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、前記注目フレームの内容を表すフレームトピックとして選択し、
      前記トピック対頻出単語テーブルに基づき、前記フレームトピックにおいて出現頻度が高い単語を、前記注目フレームに付与するアノテーションとして選択する
     請求項14に記載の情報処理装置。
  16.  前記アノテーションモデルを用いて、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、前記キーワードフレームを検索するフレーム検索手段をさらに備え、
     前記特徴量抽出手段は、
      前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
     前記フレーム検索手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
      前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、前記注目フレームの内容を表すフレームトピックとして選択し、
      前記トピック対頻出単語テーブルに基づき、前記フレームトピックにおける前記所定のキーワードの出現頻度を求め、前記所定のキーワードの出現頻度が高い場合、前記注目フレームを、前記キーワードフレームとして選択する
     請求項14に記載の情報処理装置。
  17.  前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御手段をさらに備え、
     前記特徴量抽出手段は、
      前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
     前記表示制御手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求めることにより、前記対象コンテンツの各フレームに対応する状態を求め、
      前記状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、
      前記トピック対頻出単語テーブルに基づき、前記フレームトピックにおいて出現頻度が高い単語を、そのフレームトピックが内容を表すフレームに付与するアノテーションとして求め、
      前記アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる
     請求項14に記載の情報処理装置。
  18.  前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御手段をさらに備え、
     前記特徴量抽出手段は、
      前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
     前記表示制御手段は、
      前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
      前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求めることにより、前記対象コンテンツの各フレームに対応する状態を求め、
      前記状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、
      前記トピック対頻出単語テーブルに基づき、前記潜在トピックにおいて出現頻度が高い単語を、その潜在トピックがフレームトピックであるフレームに付与するアノテーションとして求め、
      前記潜在トピックごとに、その潜在トピックがフレームトピックであるフレームに付与するアノテーションを表示させる
     請求項14に記載の情報処理装置。
  19.  情報処理装置が、
     学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出し、
     前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行う
     ステップを含む情報処理方法。
  20.  学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出する特徴量抽出手段と、
     前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うモデル学習手段と
     して、コンピュータを機能させるためのプログラム。
PCT/JP2011/067691 2010-08-11 2011-08-02 情報処理装置、情報処理方法、及び、プログラム WO2012020667A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/814,170 US9280709B2 (en) 2010-08-11 2011-08-02 Information processing device, information processing method and program
CN201180038474XA CN103069414A (zh) 2010-08-11 2011-08-02 信息处理设备、信息处理方法和程序
EP11816333.6A EP2605152A1 (en) 2010-08-11 2011-08-02 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010180174A JP2012038239A (ja) 2010-08-11 2010-08-11 情報処理装置、情報処理方法、及び、プログラム
JP2010-180174 2010-08-11

Publications (1)

Publication Number Publication Date
WO2012020667A1 true WO2012020667A1 (ja) 2012-02-16

Family

ID=45567636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/067691 WO2012020667A1 (ja) 2010-08-11 2011-08-02 情報処理装置、情報処理方法、及び、プログラム

Country Status (5)

Country Link
US (1) US9280709B2 (ja)
EP (1) EP2605152A1 (ja)
JP (1) JP2012038239A (ja)
CN (1) CN103069414A (ja)
WO (1) WO2012020667A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8477994B1 (en) * 2009-02-26 2013-07-02 Google Inc. Creating a narrative description of media content and applications thereof
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
CN103324760B (zh) * 2013-07-11 2016-08-17 中国农业大学 使用解说词文档自动生成营养健康教育视频的方法及系统
WO2015110932A1 (en) * 2014-01-27 2015-07-30 Koninklijke Philips N.V. Extraction of information from an image and inclusion thereof in a clinical report
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9507815B2 (en) * 2014-07-07 2016-11-29 Sap Se Column store optimization using simplex store
JP6711275B2 (ja) * 2014-09-22 2020-06-17 ソニー株式会社 画像表示制御装置、送信装置、および画像表示制御方法、並びにプログラム
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
US9607224B2 (en) * 2015-05-14 2017-03-28 Google Inc. Entity based temporal segmentation of video streams
US10007848B2 (en) 2015-06-02 2018-06-26 Hewlett-Packard Development Company, L.P. Keyframe annotation
CA2992397A1 (en) 2015-07-13 2017-01-19 Ancestry.Com Dna, Llc Local genetic ethnicity determination system
JP6512294B2 (ja) 2015-07-14 2019-05-15 富士通株式会社 圧縮プログラム、圧縮方法および圧縮装置
CN105260154A (zh) * 2015-10-15 2016-01-20 桂林电子科技大学 一种多媒体数据显示方法及显示装置
CN106920255B (zh) * 2015-12-24 2020-06-05 航天信息股份有限公司 一种针对图像序列的运动目标提取方法及装置
US9811765B2 (en) * 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
CN107133226B (zh) * 2016-02-26 2021-12-07 阿里巴巴集团控股有限公司 一种区分主题的方法及装置
JP6663134B2 (ja) * 2016-03-07 2020-03-11 富士ゼロックス株式会社 動画編集装置およびプログラム
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
WO2018123572A1 (ja) * 2016-12-28 2018-07-05 株式会社ソシオネクスト 映像コンテンツ受信システム、映像コンテンツ受信方法及び記録媒体
US10885111B2 (en) * 2018-04-16 2021-01-05 International Business Machines Corporation Generating cross-domain data using variational mapping between embedding spaces
US10896620B2 (en) * 2018-06-07 2021-01-19 Microsoft Technology Licensing, Llc Programmable interface for automated learning refreshers
US20210142007A1 (en) * 2018-06-28 2021-05-13 Ntt Docomo, Inc. Entity identification system
EP3621022A1 (en) 2018-09-07 2020-03-11 Delta Electronics, Inc. Data analysis method and data analysis system thereof
CN110888896B (zh) * 2018-09-07 2023-09-05 台达电子工业股份有限公司 数据搜寻方法及其数据搜寻系统
US20200082905A1 (en) 2018-09-11 2020-03-12 Ancestry.Com Dna, Llc Admixed synthetic reference panel
CN109218835B (zh) * 2018-09-30 2020-04-14 百度在线网络技术(北京)有限公司 精华视频的生成方法、装置、设备及存储介质
CN109902169B (zh) * 2019-01-26 2021-03-30 北京工业大学 基于电影字幕信息提升电影推荐系统性能的方法
EP3926491A4 (en) * 2019-03-29 2022-04-13 Sony Group Corporation IMAGE PROCESSING DEVICE AND METHOD, AND PROGRAM
JP7192086B2 (ja) * 2020-02-21 2022-12-19 グーグル エルエルシー 機械学習を使用してアニメーションメディアコンテンツアイテムから時間的情報を抽出するためのシステムおよび方法
US11762667B2 (en) * 2020-12-22 2023-09-19 International Business Machines Corporation Adjusting system settings based on displayed content
CN113920293A (zh) * 2021-10-18 2022-01-11 北京达佳互联信息技术有限公司 信息识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2007163568A (ja) 2005-12-09 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> ダイジェストシーン情報の入力装置、入力方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2008175994A (ja) 2007-01-17 2008-07-31 Sony Corp 画像表示制御装置、画像表示制御方法およびプログラム
JP2010044614A (ja) * 2008-08-13 2010-02-25 Nippon Hoso Kyokai <Nhk> キーフレーズ抽出装置、シーン分割装置およびプログラム
JP2010093461A (ja) 2008-10-07 2010-04-22 Victor Co Of Japan Ltd 番組表示装置および番組表示方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596755B2 (en) * 1997-12-22 2009-09-29 Ricoh Company, Ltd. Multimedia visualization and integration environment
US6751776B1 (en) * 1999-08-06 2004-06-15 Nec Corporation Method and apparatus for personalized multimedia summarization based upon user specified theme
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7394947B2 (en) * 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
US7941009B2 (en) * 2003-04-08 2011-05-10 The Penn State Research Foundation Real-time computerized annotation of pictures
US20100005485A1 (en) * 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
US20070185857A1 (en) * 2006-01-23 2007-08-09 International Business Machines Corporation System and method for extracting salient keywords for videos
US20080027917A1 (en) * 2006-07-31 2008-01-31 Siemens Corporate Research, Inc. Scalable Semantic Image Search
US8667532B2 (en) * 2007-04-18 2014-03-04 Google Inc. Content recognition for targeting video advertisements
US20080313146A1 (en) * 2007-06-15 2008-12-18 Microsoft Corporation Content search service, finding content, and prefetching for thin client
JP4983539B2 (ja) * 2007-10-19 2012-07-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2010029553A1 (en) * 2008-09-11 2010-03-18 Netanel Hagbi Method and system for compositing an augmented reality scene
US20100318893A1 (en) * 2009-04-04 2010-12-16 Brett Matthews Online document annotation and reading system
CN101719144B (zh) * 2009-11-04 2013-04-24 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
US8451292B2 (en) * 2009-11-23 2013-05-28 National Cheng Kung University Video summarization method based on mining story structure and semantic relations among concept entities thereof
US8756233B2 (en) * 2010-04-16 2014-06-17 Video Semantics Semantic segmentation and tagging engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2007163568A (ja) 2005-12-09 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> ダイジェストシーン情報の入力装置、入力方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2008175994A (ja) 2007-01-17 2008-07-31 Sony Corp 画像表示制御装置、画像表示制御方法およびプログラム
JP2010044614A (ja) * 2008-08-13 2010-02-25 Nippon Hoso Kyokai <Nhk> キーフレーズ抽出装置、シーン分割装置およびプログラム
JP2010093461A (ja) 2008-10-07 2010-04-22 Victor Co Of Japan Ltd 番組表示装置および番組表示方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
A. TORRALBA; K. MURPHY; W. FREEMAN; M. RUBIN: "Context-based vision system for place and object recognition", IEEE INT. CONF. COMPUTER VISION, vol. 1, no. 1, 2003, pages 273 - 280, XP010662301, DOI: doi:10.1109/ICCV.2003.1238354
BREZEALE, D.; COOK, D. J.: "Automatic Video Classification: A Survey of the Literature", IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, PART C: APPLICATIONS AND REVIEWS, vol. 38, no. 3, May 2008 (2008-05-01), pages 416 - 430, XP011345977, DOI: doi:10.1109/TSMCC.2008.919173
DAVID M. BLEI; ANDREW Y. NG; MICHAEL I. JORDAN: "Latent Dirichlet Allocation", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 3, 2003, pages 993 - 1022
N. OTSU; T. KURITA: "A new scheme for practical flexible and intelligent vision systems", PROC. IAPR WORKSHOP ON COMPUTER VISION, 1988, pages 431 - 435
NGUYEN HUU BACH: "Automatic video indexing of baseball broadcast using a hidden Markov model", IEICE TECHNICAL REPORT, vol. 104, no. 88, 12 November 2004 (2004-11-12), pages 13 - 18, XP008167801 *
OJALA T.; PIETIKAINEN M.; MAENPAA T.: "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 24, no. 7, pages 971 - 987, XP011094543, DOI: doi:10.1109/TPAMI.2002.1017623
SATOSHI TAMURA; KOJI IWANO; SADAOKI FURUI: "Multimodal speech recognition using optical-flow analysis", ACOUSTICAL SOCIETY OF JAPAN, ANNALS OF AUTUMN MEETING, October 2001 (2001-10-01), pages 27 - 28
TOMOHIDE SHIBATA: "Unsupervised Topic Identification by Integrating Linguistic and Visual Information Based on Hidden Markov Models", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 48, no. 6, 15 June 2007 (2007-06-15), pages 2129 - 2139, XP008169156 *
ZHU LIU; JINCHENG HUANG; YAO WANG; TSUHAN CHEN: "Audio feature extraction and analysis for scene classification", FIRST WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING, 23 June 1997 (1997-06-23), pages 343 - 348, XP010233847, DOI: doi:10.1109/MMSP.1997.602659

Also Published As

Publication number Publication date
US20130163860A1 (en) 2013-06-27
EP2605152A1 (en) 2013-06-19
CN103069414A (zh) 2013-04-24
JP2012038239A (ja) 2012-02-23
US9280709B2 (en) 2016-03-08

Similar Documents

Publication Publication Date Title
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US5664227A (en) System and method for skimming digital audio/video data
JP5533861B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
MXPA97002675A (en) System and method for examining digital audio / video data
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
Christel Automated metadata in multimedia information systems
Tapu et al. TV news retrieval based on story segmentation and concept association
Smith et al. Multimodal video characterization and summarization
Snoek The authoring metaphor to machine understanding of multimedia
Xu et al. Automatic generated recommendation for movie trailers
Rajarathinam et al. Analysis on video retrieval using speech and text for content-based information
Zavesky et al. Searching visual semantic spaces with concept filters
Peronikolis et al. Personalized Video Summarization: A Comprehensive Survey of Methods and Datasets
Sasongko Automatic generation of effective video summaries
CN117915157A (zh) 转录和基于文本的视频编辑的面部感知说话人日志化
CN117909545A (zh) 使用转录交互的视频片段选择和编辑
RAI et al. Metadata Extraction, Enrichment and Linking v3
Haubold Indexing and browsing unstructured videos using visual, audio, textual, and facial cues
Worring Lecture Notes: Multimedia Information Systems
Christel Survey of Automatic Metadata Creation Methods
Smith et al. VIDEO SUMMARIES THROUGH MULTIMODAL ANALYSIS

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180038474.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11816333

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011816333

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13814170

Country of ref document: US