WO2012020667A1

WO2012020667A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2012020667A1
Application number: PCT/JP2011/067691
Authority: WO
Inventors: 洋貴鈴木; 伊藤　真人
Original assignee: ソニー株式会社
Priority date: 2010-08-11
Filing date: 2011-08-02
Publication date: 2012-02-16
Also published as: US20130163860A1; CN103069414A; JP2012038239A; EP2605152A1; US9280709B2

Abstract

本発明は、コンテンツへのアノテーションの付与を、容易に行うことができる情報処理装置、情報処理方法、及び、プログラムに関する。特徴量抽出部２１は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、学習用コンテンツの画像の内容を説明する説明テキスト（例えば、字幕のテキスト）において各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。モデル学習部２２は、各フレームの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。本発明は、例えば、テレビジョン放送の番組等のコンテンツにアノテーションを付与する場合に適用することができる。

Description

情報処理装置、情報処理方法、及び、プログラム

　本発明は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、コンテンツへのアノテーションの付与を、容易に行い、そのアノテーションを利用したアプリケーションを提供することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

　ユーザが、放送番組等の画像を含むコンテンツの概要を認識する方法としては、コンテンツのダイジェストを表示する方法がある（例えば、特許文献１，２，３）。

特開2007-163568号公報特開2008-175994号公報特開2010-093461号公報

　ユーザがコンテンツの概要を認識する方法としては、コンテンツのダイジェストを表示する方法の他、コンテンツに対して、アノテーションを付与する方法がある。

　そして、現在、コンテンツに対して、アノテーションを容易に付与する技術の提案が要請されている。

　本発明は、このような状況に鑑みてなされたものであり、コンテンツへのアノテーションの付与を、容易に行い、そのアノテーションを利用したアプリケーションを提供することができるようにするものである。

　本発明の一側面の情報処理装置、又は、プログラムは、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出する特徴量抽出手段と、前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うモデル学習手段とを備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

　本発明の一側面の情報処理方法は、情報処理装置が、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出し、前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うステップを含む情報処理方法である。

　以上のような本発明の一側面においては、学習用コンテンツの画像の各フレームの画像特徴量が抽出されるとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報が、前記説明テキストのテキスト特徴量として抽出され、前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習が行われる。

　なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

　また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

　本発明の一側面によれば、コンテンツへのアノテーションの付与を、容易に行い、そのアノテーションを利用したアプリケーションを提供することができる。

本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。学習装置１２の構成例を示すブロック図である。特徴量抽出部２１の第１の構成例を示すブロック図である。字幕CSVデータ、及び、中間データの例を示す図である。中間データを頻度データに変換する方法を説明する図である。テキスト特徴量の例を示す図である。学習装置１２がアノテーションモデルの学習を行う学習処理を説明するフローチャートである。アノテーション付与装置１４の構成例を示すブロック図である。アノテーション付与装置１４が対象コンテンツにアノテーションを付与するアノテーション付与処理を説明するフローチャートである。フレーム検索装置１５の構成例を示すブロック図である。フレーム検索装置１５が対象コンテンツからキーワードフレームを検索し、キーワードダイジェストを生成するフレーム検索処理を説明するフローチャートである。キーワードKW#1，KW#2，KW#3，KW#4のそれぞれに対して求められた、対象コンテンツの各フレームのキーワード合致度の例を示す図である。 AND検索式の演算としての数値minオペレーションを説明する図である。 OR検索式の演算としての数値maxオペレーションを説明する図である。表示制御装置１６の構成例を示すブロック図である。表示制御部６３で描画されるモデルマップの例を示す図である。修正後のエラー関数Eを用いて得られるモデルマップの表示例を示す図である。表示制御部６３によって表示される、代表画像とアノテーションとが配置されたモデルマップの表示例を示す図である。モデルマップの一部の拡大図である。表示制御装置１６がモデルマップを表示させる表示制御処理を説明するフローチャートである。特徴量抽出部２１の第２の構成例を示すブロック図である。特徴量抽出部２１の第３の構成例を示すブロック図である。基底空間学習部１６１が、テキスト用基底空間の基底空間データとしてのLDAのパラメータを求める、LDAの学習を説明する図である。次元圧縮部１６３が、テキスト用基底空間の基底空間データを用いて行う、テキスト特徴量の次元圧縮を説明する図である。アノテーション付与装置１４の特徴量抽出部４１の構成例を示すブロック図である。アノテーション付与装置１４によるアノテーション付与処理を説明するフローチャートである。検索装置１５によるフレーム検索処理を説明するフローチャートである。表示制御装置１６によるモデルマップの表示制御処理を説明するフローチャートである。対象コンテンツに付与されたアノテーションを、潜在トピックごとに表示した表示例を示す図である。表示制御装置１６によるトピックリストの表示制御処理を説明するフローチャートである。トピックリストを用いたアノテーションの表示形式の例を示す図である。モデルマップを用いたアノテーションの表示形式の例を示す図である。特徴量抽出部２１の第４の構成例を示すブロック図である。アノテーション付与装置１４の特徴量抽出部４１の構成例を示すブロック図である。本発明の情報処理装置を適用したレコーダの他の一実施の形態の構成例を示すブロック図である。ブラウジングレコーダによるアノテーションモデルの学習の概要を説明する図である。ブラウジングレコーダによる、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出の概要を説明する図である。ブラウジングレコーダによる、シーンの代表画像を、表示時刻順に並べて表示させる表示制御の概要を説明する図である。ユーザが入力したキーワードによって内容が表現されるコーナ（シーン）のみの代表画像を、表示時刻順に並べた時刻順概要表示画像を表示させる表示制御の概要を説明する図である。ブラウジング制御装置３１４の構成例を示すブロック図である。ブラウジングレコーダで行われる設定処理を説明するフローチャートである。ブラウジングレコーダで行われるコンテンツ取得関連処理を説明するフローチャートである。ブラウジング制御装置３１４が、アノテーションモデルを用いて行う処理（ブラウジング制御処理）を説明するフローチャートである。ユーザがキーワードを入力した場合にブラウジング制御装置３１４が行う処理を説明するフローチャートである。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　＜第１実施の形態＞

　［本発明の情報処理装置を適用したレコーダの一実施の形態］

　図１は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。

　図１のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画（記録）（記憶）することができる。

　すなわち、図１において、レコーダは、コンテンツ記憶部１１、学習装置１２、アノテーションモデル記憶部１３、アノテーション付与装置１４、フレーム検索装置１５、及び、表示制御装置１６を有する。

　なお、コンテンツ記憶部１１、学習装置１２、アノテーションモデル記憶部１３、アノテーション付与装置１４、フレーム検索装置１５、及び、表示制御装置１６は、全体を、１つの装置（筐体）として構成することもできるし、複数の装置に分けて構成することもできる。

　すなわち、例えば、コンテンツ記憶部１１、学習装置１２、及び、アノテーションモデル記憶部１３を、ホームネットワーク上のサーバやインターネット上のサーバ等の１つの装置として構成し、アノテーション付与装置１４、フレーム検索装置１５、及び、表示制御装置１６のそれぞれは、クライアント等の別の装置として構成することができる。

　コンテンツ記憶部１１は、例えば、テレビジョン放送の番組等の、画像を含むコンテンツを記憶（記録）する。コンテンツ記憶部１１へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ（コンテンツ記憶部１１に記憶されたコンテンツ）は、例えば、ユーザの操作に応じて再生される。

　なお、コンテンツ記憶部１１には、その他、ビデオカメラ等で撮影したコンテンツや、webサーバからダウンロードしたコンテンツ等を記憶させることができる。

　学習装置１２は、例えば、コンテンツ記憶部１１に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造（時空間構造）を表すモデルを求める学習（統計学習）を行う。

　すなわち、学習装置１２は、コンテンツ記憶部１１に記憶されたコンテンツのうちの、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、後述するアノテーションモデルの学習に用いる学習用コンテンツに選択する。

　さらに、学習装置１２は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、その学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。

　そして、学習装置１２は、学習用コンテンツから抽出した画像特徴量、及び、テキスト特徴量を含むマルチストリームを、アノテーション用のアノテーション用系列として用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行い、その学習後のアノテーションモデルを、アノテーションモデル記憶部１３に供給する。

　アノテーションモデル記憶部１３は、学習装置１２から供給されるアノテーションモデルを記憶する。

　アノテーション付与装置１４は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルを用いて、コンテンツ記憶部１１に記憶されたコンテンツのうちの、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与する。

　フレーム検索装置１５は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルを用いて、コンテンツ記憶部１１に記憶されたコンテンツのうちの、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、キーワードフレームを検索する。

　表示制御装置１６は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルを用いて、コンテンツ記憶部１１に記憶されたコンテンツのうちの、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御を行う。

　なお、ここでは、コンテンツ記憶部１１に記憶されるコンテンツのデータは、画像、音声、及び、必要な字幕のテキストのデータ（ストリーム）を含むこととする。

　但し、学習用コンテンツは、少なくとも画像が含まれ、かつ、字幕のテキスト等の説明テキストが、何らかの方法で取得することができるコンテンツであればよく、アノテーション付与装置１４、フレーム検索装置１５、及び、表示制御装置１６で処理の対象となる対象コンテンツは、少なくとも画像が含まれるコンテンツであればよい。

　また、学習用コンテンツ、及び、対象コンテンツは、画像を含まないが、音声を含むコンテンツであって良い。

　［学習装置１２の構成例］

　図２は、図１の学習装置１２の構成例を示すブロック図である。

学習装置１２は、特徴量抽出部２１、及び、モデル学習部２２を有する。

　特徴量抽出部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、アノテーションモデルの学習に用いるコンテンツを、学習用コンテンツとして選択し、コンテンツ記憶部１１から取得する（読み出す）。

　ここで、特徴量抽出部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、例えば、字幕のテキストを含むコンテンツ等の、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択する。

　説明テキストとしては、コンテンツに含まれる字幕のテキストの他、放送番組のコーナごとの放送開始時刻、放送終了時刻、出演者、及び、コーナの内容の要約等のメタデータを、放送番組の終了後に配信する有料サービス（以下、番組メタデータサービスともいう）のサービス提供者が提供するメタデータや、ユーザがキーボード等を操作することによって入力する、コンテンツを説明するテキスト等を採用することができる。

　また、特徴量抽出部２１は、例えば、所定のカテゴリに属する１以上のコンテンツを、１つのアノテーションモデルの学習に用いる学習用コンテンツとして選択する。

　所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組（タイトルが同一の、いわゆるシリーズものの番組）等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。

　カテゴリとなるジャンルについては、例えば、スポーツ番組や、ニュース番組、音楽番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。

　また、例えば、サッカーの試合の番組であれば、チャンネル（放送局）が異なるごとに、異なるカテゴリに属するコンテンツに分類することができる。

　なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図１のレコーダに、あらかじめ設定されていることとする。

　また、コンテンツ記憶部１１に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。

　ここで、学習装置１２は、アノテーションモデルの学習を、カテゴリごとに行う。図１のアノテーション付与装置１４、フレーム検索装置１５、及び、表示制御装置１６でも、対象コンテンツの処理を、その対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを用いて行う。但し、以下では、カテゴリについての説明は、適宜、省略する。

　特徴量抽出部２１は、コンテンツ記憶部１１からの学習用コンテンツに含まれる画像の各フレームの特徴量である画像特徴量を抽出して、モデル学習部２２に供給する。

　ここで、特徴量抽出部２１は、例えば、学習用コンテンツのフレームを、順次、注目フレームとして、注目フレームを、複数の小領域であるサブ領域に分割する。

　さらに、特徴量抽出部２１は、例えば、各サブ領域のサブ領域特徴量を抽出し、注目フレームのサブ領域特徴量をコンポーネントとするベクトルを、注目フレームの画像特徴量として、モデル学習部２２に供給する。

　サブ領域特徴量としては、サブ領域の画素値（例えば、RGB成分や、YUV成分等）を用いて、サブ領域の大域的な特徴量が求められる。

　ここで、サブ領域の大域的な特徴量とは、サブ領域を構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。

　大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。

　なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な（変化を吸収するような）（Robustな）特徴量であれば良い。そのような特徴量としては、例えば、HLCA（局所高次相関）や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。

　HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている（Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字）。

　以上のような、サブ領域特徴量をコンポーネントとするベクトルである画像特徴量は、局所的な変化（サブ領域内で起こる変化）に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ（鋭敏に違いを見分ける性質）であるような特徴量となる。

　このような画像特徴量によれば、フレーム間のシーン（内容）の類似性を、適切に判定することができる。例えば、「浜辺」のシーンは、フレームの上方に「空」があり、中央に「海」があり、画面下方に「砂浜」があればよく、「砂浜」のどこに人がいるかや、「空」のどこに雲があるか等は、シーンが「浜辺」のシーンであるかどうかに関係がない。サブ領域特徴量をコンポーネントとするベクトルである画像特徴量は、このような観点からシーンの類似性を判定する（シーンを分類する）のに適しており、以下、適宜、シーン特徴量ともいう。

　特徴量抽出部２１は、コンテンツ記憶部１１からの学習用コンテンツに含まれる画像の各フレームの画像特徴量（シーン特徴量）を抽出する他、その学習用コンテンツの説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出し、モデル学習部２２に供給する。

　なお、特徴量抽出部２１は、学習用コンテンツに、字幕のテキストが含まれている場合には、その字幕のテキストを、説明テキストとして採用する。

　また、特徴量抽出部２１は、外部から、説明テキストが入力される場合、すなわち、例えば、番組メタデータサービスのサービス提供者から、番組のメタデータが提供される場合や、ユーザがキーボード等を操作することによって、学習用コンテンツを説明するテキストが入力される場合には、そのサービス提供者からのメタデータや、ユーザからのテキストを、説明テキストとして採用することができる。

　その他、特徴量抽出部２１では、学習用コンテンツに含まれる音声の音声認識を行い、その音声認識の結果であるテキストを、説明テキストとして採用することができる。

　ここで、以下では、説明を簡単にするために、説明テキストとしては、コンテンツに含まれる字幕のテキストを採用することとする。

　モデル学習部２２は、特徴量抽出部２１から供給される学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームを、コンテンツにアノテーションを付与するためのアノテーション用のアノテーション用系列として、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。

　そして、モデル学習部２２は、学習後のアノテーションモデルを、アノテーションモデル記憶部１３に供給して記憶させる。

　ここで、HMMは、最初に、状態s_iにいる初期確率π_i、状態s_iから状態s_jに状態遷移する状態遷移確率a_ij、及び、状態s_iから、所定の観測値oが観測（出力）される出力確率分布b_i(o)で規定される。

　出力確率分布b_i(o)としては、観測値oが離散値（多項分布）である場合には、確率となる離散値（の分布）が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値（平均ベクトル）と分散（共分散行列）とで定義されるガウス分布等を採用することができる。

　HMMの学習は、例えば、EM(Expextation Maximization)アルゴリズムに基づくパラメータ推定方法であるBaum-Welchの再推定法によって行うことができる。

　なお、アノテーションモデルとして、エルゴディック(Ergodic)型のHMM（状態遷移に制約がないHMM）を採用する場合には、HMMの状態数が多いと、HMMのパラメータ（初期確率π_i、状態遷移確率a_ij、及び、出力確率分布b_i(o)）の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。

　そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、アノテーションモデルとしては、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。

　ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造（状態遷移が疎らな構造）である。

　なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも１つ存在し、また、自己遷移は存在することとする。

　上述したように、モデル学習部２２は、特徴量抽出部２１から供給される学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を、例えば、Baum-Welchの再推定法によって行う。

　マルチストリームHMMでは、観測値の複数の系列（ストリーム）であるマルチストリームが観測される。

　そして、マルチストリームHMMでは、マルチストリームを構成する個々の系列（ストリーム）（以下、構成要素系列ともいう）に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み（以下、系列重みともいう）を設定することができる。

　系列重みにいついては、マルチストリームHMMの学習時に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。

　また、マルチストリームHMMを用いた認識時（最尤状態系列を求めるとき）に、重要視しない構成要素系列に対して、小さな系列重みを設定することで、その構成要素系列の影響を（ほとんど）受けない認識結果を得ることができる。

　なお、マルチストリームHMMの詳細は、例えば、田村哲嗣, 岩野公司, 古井貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。

　上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。

　マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式（１）に示すように、マルチストリームを構成する各構成要素系列o_[m]の出力確率分布b_[m]j(o_[m])に、事前に設定した系列重みW_mを考慮して、マルチストリーム全体の出力確率分布b_j(o_[1],o_[2],・・・,o_[M])を計算する点である。

　　　　　　　　　　　　　　　　　　　　　　　　・・・（１）

　ここで、式（１）において、Mは、マルチストリームを構成する構成要素系列o_[m]の数（ストリーム数）を表し、系列重みW_mは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o_[m]の系列重みを表す。

　いまの場合、モデル学習部２２で学習に用いられるマルチストリームであるアノテーション用系列は、画像特徴量の系列o_[1]とテキスト特徴量の系列o_[2]との２つの構成要素系列で構成される。

　この場合、系列重みW₁及びW₂としては、例えば、いずれも、0.5を採用することができる。

　いま、例えば、１個目の構成要素系列o_[1]である画像特徴量として、サブ領域特徴量をコンポーネントとするベクトルを採用するとともに、２個目の構成要素系列o_[2]であるテキスト特徴量として、各単語の頻度（頻度そのもの、又は、頻度を正規化した値）を採用することとする。

　この場合、１個目の構成要素系列o_[1]である画像特徴量は、連続値のベクトルであり、出力確率分布（観測モデル）b_[1]j(o_[1])として、例えば、平均値（平均ベクトル）がμ_[1]jで、分散（共分散行列）がσ² _[1]jのガウス分布N(μ_[1]j，σ² _[1]j)が用いられる。

　また、２個目の構成要素系列o_[2]であるテキスト特徴量は、各単語の頻度（頻度そのもの、又は、頻度を正規化した値）の多項分布であり、出力確率分布b_[2]j(o_[2])として、多項分布が用いられる。

　以上のような２つの構成要素系列o_[1]及びo_[2]で構成されるアノテーション用系列を用いたマルチストリームHMMの学習、すなわち、Baum-Welchの再推定法では、E(Expextation)ステップにおいて、初期確率π_i、状態遷移確率a_ij、及び、式（１）に従って求められる出力確率分布b_j(o_[1],o_[2])を用いて、h番目の学習用コンテンツについて、時刻t（学習用コンテンツの第tフレーム（先頭からtフレーム目））に、状態jにいる状態確率γ^(h) _t,jが、単一の系列を用いるHMMの学習の場合と同様にして求められる。

　また、M(Maximization)ステップでは、Eステップで求められた状態確率γ^(h) _t,jを用いて、画像特徴量の出力確率分布（観測モデル）b_[1]j(o_[1])としてのガウス分布の平均値μ_[1]j、及び、分散σ² _[1]jが、単一の系列を用いるHMMの学習の場合と同様に、式（２）に従って求められる。

　　　　　　　　　　　　　　　　　　　　　　　　・・・（２）

　ここで、式（２）において、Hは、学習用コンテンツの数（コンテンツ数）を表し、o^(h) _[1](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームの画像特徴量を表す。

　さらに、Mステップでは、Eステップで求められた状態確率γ^(h) _t,jを用いて、テキスト特徴量によって頻度が表される各単語の出力確率分布（離散シンボル観測モデル）b_[2]jとしての多項分布が、多項分布を観測モデル（出力確率分布）として有するHMMの学習の場合と同様に、式（３）に従って求められる。

　　　　　　　　　　　　　　　　　　　　　　　　・・・（３）

　ここで、式（３）において、o^(h) _[2](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームのテキスト特徴量である各単語の頻度の多項分布を表し、b_[2]jは、状態s_jにおいて、各単語が観測される出力確率分布である多項分布を表す。

　なお、多項分布がK個のシンボルの分布を表し、各時刻tに、K個のシンボルのうちの1個のシンボルが観測される場合には、多項分布o^(h) _[2](t)は、時刻tに観測される１個のシンボルの分布（確率）が1であり、残りのシンボルの分布がすべて0である多項分布となる。

　［特徴量抽出部２１の第１の構成例］

　図３は、図２の特徴量抽出部２１の第１の構成例を示すブロック図である。

　図３において、特徴量抽出部２１は、画像取得部３１、画像特徴量抽出部３２、説明テキスト取得部３３、テキスト特徴量抽出部３４、及び、同期部３５を有する。

　画像取得部３１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択して取得する。

　さらに、画像取得部３１は、学習用コンテンツから、画像を逆多重化（分離）することにより取得して、画像特徴量抽出部３２に供給する。

　画像特徴量抽出部３２は、画像取得部３１からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、フレームの内容（シーン）の類似性を判定するのに適した画像特徴量であるシーン特徴量を抽出し、同期部３５に供給する。

　説明テキスト取得部３３は、例えば、コンテンツ記憶部１１から、画像取得部３１が取得するのと同一の学習用コンテンツを取得し、その学習用コンテンツから、字幕のテキストを逆多重化することにより取得して、説明テキストとして、テキスト特徴量抽出部３４に供給する。

　なお、説明テキスト取得部３３では、学習用コンテンツに含まれる字幕のテキストの他、上述したように、番組メタデータサービスのサービス提供者から、番組のメタデータを取得することや、ユーザがキーボード等を操作することによって入力したテキスト、学習用コンテンツに含まれる音声の音声認識を行うことにより得られる音声認識結果としてのテキスト等を、説明テキストとして取得することができる。

　テキスト特徴量抽出部３４は、説明テキスト取得部３３からの説明テキストとしての字幕のテキストについて、例えば、数秒や数十秒等の所定の時間長の窓を、一定間隔でずらしながら、窓内に表示される字幕のテキストに含まれる単語を、１つの文書として抽出する。

　さらに、テキスト特徴量抽出部３４は、文書から、その文書において各単語が出現する頻度を表す多項分布を、テキスト特徴量として抽出し、同期部３５に供給する。

　ここで、文書において各単語が出現する頻度を表す多項分布は、単語頻度情報、すなわち、説明テキストにおいて各単語が出現する頻度に関する情報である。

　同期部３５は、画像特徴量抽出部３２から供給されるシーン特徴量と、テキスト特徴量抽出部３４から供給されるテキスト特徴量とを、フレーム単位で同期させて出力する。

　すなわち、シーン特徴量は、フレームごとに得られるので、フレーム単位に存在するが、テキスト特徴量は、文書、つまり、一定間隔でずらされる窓ごとに得られるので、フレーム単位に存在するとは限らない。

　同期部３５は、注目する注目フレームから抽出されたシーン特徴量と、例えば、注目フレームに時間的に最も近い位置の窓から得られた（文書から抽出された）テキスト特徴量や、注目フレーム以降の時刻の位置の窓であって、注目フレームに時間的に最も近い位置の窓から得られたテキスト特徴量とのセットが、注目フレームのシーン特徴量とテキスト特徴量とのセットになるように、画像特徴量抽出部３２から供給されるシーン特徴量と、テキスト特徴量抽出部３４から供給されるテキスト特徴量とを同期させ、モデル学習部２２（図２）に出力する。

　［テキスト特徴量の抽出］

　図４ないし図６は、図３のテキスト特徴量抽出部３４によるテキスト特徴量の抽出を説明する図である。

　すなわち、図４は、字幕CSVデータ、及び、中間データの例を示す図である。

　説明テキスト取得部３３（図３）は、学習用コンテンツから、説明テキストとしての字幕のテキストを含む字幕データ（字幕ストリーム）を取得し、テキスト特徴量抽出部３４に供給する。

　テキスト特徴量抽出部３４（図３）は、字幕データから、字幕の表示開始時刻と、説明テキストとしての字幕のテキストとを抽出する。

　ここで、図４の字幕CSVデータは、コンテンツに含まれる字幕データを、CSV（カンマ区切り）表現にデコードしたデータである。

　字幕CSVデータの第１列（左から１列目）のデータは、字幕の表示開始時刻としてのPTS(Presentation Time Stamp)であり、第４列のデータは、字幕のテキストである。

　なお、字幕CSVデータのある行の字幕のテキストは、その行の表示開始時刻から、次の行の表示開始時刻の直前まで表示されることとする。

　テキスト特徴抽出部３４は、字幕CSVデータの第１列のPTSで表現された表示開始時刻を、例えば、学習用コンテンツの先頭を基準とするミリ秒で表現された時刻に変換する。

さらに、テキスト特徴抽出部３４は、字幕CSVデータの第４列の字幕のテキストを形態素解析することにより、字幕のテキストを、単語（形態素）に分節化するとともに、各単語の品詞を求める。

　また、テキスト特徴量抽出部３４は、字幕のテキストから分節化された単語の中から、アノテーションに有用な単語を抽出する。

　すなわち、テキスト特徴量抽出部３４は、字幕のテキストから分節化された単語の中から、例えば、名詞、動詞、形容詞、及び、副詞等の特定の品詞の単語を、有用な単語の候補として抽出し、さらに、有用な単語の候補から、例えば、ひらがな１文字の単語や、ひらがなだけで構成される単語を削除する。

　そして、テキスト特徴量抽出部３４は、残った有用な単語の候補を、有用な単語に確定し、その有用な単語と、ミリ秒で表現された表示開始時刻とのセットを、テキスト特徴量の抽出に用いる中間的な中間データとする。

　ここで、本件発明者が行った、実際のデータを用いた実験によれば、品詞が、名詞、及び、動詞の単語を、有用な単語の候補として抽出し、その有用な単語の候補から、ひらがな１文字の単語、ひらがなだけで構成されている単語、及び、数字を削除することで、アノテーションとして、比較的適切な単語が付与される結果が得られている。

　図５は、中間データを頻度データに変換する方法を説明する図である。

　テキスト特徴量抽出部３４は、学習用コンテンツから中間データを求めると、その中間データを頻度データに変換する。

　すなわち、テキスト特徴量抽出部３４は、学習用コンテンツの時間軸に沿って、例えば、30秒の時間長の窓（窓関数）を、30秒間隔でずらしていく。そして、テキスト特徴量抽出部３４は、学習用コンテンツの中間データに含まれる単語の中から、窓内（窓に対応する時間内）に表示される字幕のテキストに含まれる単語を、１つの擬似的な文書（以下、擬似文書ともいう）として抽出する。

　この場合、学習用コンテンツについて、30秒ごとに、その30秒の間に表示される字幕のテキストに含まれる単語（のうちの有用な単語）を、擬似文書として得ることができる。

学習用コンテンツとして、複数のコンテンツが存在する場合には、テキスト特徴量抽出部３４は、その複数のコンテンツごとに、擬似文書を得る。

　なお、テキスト特徴量抽出部３４において、擬似文書の抽出に用いる窓の時間長は、30秒に限定されるものではない。

　また、擬似文書の抽出にあたり、窓は、一部がオーバーラップするようにずらすことができる。例えば、30秒の時間長の窓を、15秒間隔でずらすことにより、15秒間ずつオーバラップしながらずれていく窓を実現することができる。

　テキスト特徴量抽出部３４は、学習用コンテンツすべてについて、擬似文書を得ると、擬似文書すべてから、重複しないように単語を列挙し、各単語と、その単語にユニークな単語ID(Identification)とを対応付けて登録した単語辞書を生成する。

　なお、擬似文書から生成される単語辞書は、学習用コンテンツの中間データからであっても、生成することができる。

　テキスト特徴量抽出部３４は、単語辞書を生成すると、その単語辞書を参照し、各擬似文書について、その擬似文書に出現する単語の頻度を求め、その単語の単語IDと対応付けた頻度データを生成する。

　ここで、単語辞書は、例えば、アノテーションモデル記憶部１３に供給され、単語辞書の生成に用いられた学習用コンテンツを用いた学習によって得られるアノテーションモデルとともに記憶される。

　図６は、テキスト特徴量の例を示す図である。

　テキスト特徴量抽出部３４は、擬似文書の頻度データを、単語辞書に登録されている各単語の頻度に変換する。

　すなわち、単語辞書に登録されている単語の総数がK個であり、そのうちのk番目の単語の頻度をk番目のコンポーネントとするK次元のベクトルを、登録単語頻度ベクトルということとすると、テキスト特徴量抽出部３４は、擬似文書の頻度データを、登録単語頻度ベクトルに変換する。

　ここで、自然言語処理では、文書の特徴量として、BoW(Bag-of-Words)と呼ばれる特徴量が用いられることがあるが、登録単語頻度ベクトルは、BoWと呼ばれる特徴量と等価である。

　テキスト特徴量抽出部３４は、擬似文書の頻度データを変換した登録単語頻度ベクトルの各コンポーネントを、そのコンポーネントである頻度の総和で除算し、その除算の結果られるベクトルを、テキスト特徴量として、同期部３５に出力する。

　以上のような擬似文書のテキスト特徴量は、擬似文書において、単語辞書に登録されている各単語が出現する頻度（確率）を表す多項分布になっている。

　［学習処理］

　図７は、図２の学習装置１２がアノテーションモデルの学習を行う学習処理を説明するフローチャートである。

　学習装置１２（図２）では、ステップＳ１１において、特徴量抽出部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、例えば、字幕のテキストを含むコンテンツ等の、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択し、処理は、ステップＳ１２に進む。

　ステップＳ１２では、特徴量抽出部１２は、コンテンツ記憶部１１からの学習用コンテンツに含まれる画像の各フレームから、画像特徴量としてのシーン特徴量を抽出するとともに、コンテンツ記憶部１１からの学習用コンテンツに含まれる説明テキストとしての字幕テキストから、各単語が出現する頻度に関する単語頻度情報を、テキスト特徴量として抽出する。

　そして、特徴量抽出部１２は、シーン特徴量と、テキスト特徴量とを、フレーム単位で同期させ、モデル学習部２２に供給して、処理は、ステップＳ１２からステップＳ１３に進む。

　ステップＳ１３では、モデル学習部２２は、特徴量抽出部２１からの学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。

　そして、モデル学習部２２は、学習後のアノテーションモデルを、アノテーションモデル記憶部１３に供給して記憶させ、学習処理は終了する。

　以上の学習処理によれば、マルチストリームHMMであるアノテーションモデルにおいて、学習用コンテンツに潜む、コンテンツの構造（例えば、番組構成や、カメラワーク等が作り出す構造）が自己組織的に獲得される。

　その結果、学習処理よって得られるアノテーションモデルとしてのマルチストリームHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移（シーンの移り変わり）を表現する。

　そして、アノテーションモデルの状態は、特徴量空間（特徴量抽出部２１（図２）で抽出されるシーン特徴量及びテキスト特徴量のそれぞれの軸によって定義される空間）において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群（つまり「似たシーン」）をまとめて表現する。

　したがって、学習処理によれば、特徴量空間が、状態分割される。

　ここで、例えば、コンテンツがクイズ番組である場合には、大雑把には、クイズの出題、ヒントの提示、出演者による解答、正解発表、という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、クイズ番組が進行していく。

　上述の番組の基本的な流れが、コンテンツの構造に相当し、その流れ（構造）を構成する、クイズの出題、ヒントの提示、出演者による解答、正解発表のそれぞれが、コンテンツの構造の要素に相当する。

　また、例えば、クイズの出題から、ヒントの提示への進行等が、コンテンツの構造の要素どうしの間での、時間的な遷移に相当する。

　なお、アノテーションモデルとしてのマルチストリームHMMの各状態は、その状態において、シーン特徴量（のモーダル）と、テキスト特徴量（のモーダル）とのそれぞれが観測される観測モデル（出力確率分布）を有する。

　すなわち、アノテーションモデルの各状態は、各値のシーン特徴量が観測（出力）される出力確率分布と、単語辞書の各単語が観測される頻度（確率）を表す多項分布である出力確率分布とを有する。

　そして、アノテーションモデルの各状態において観測される確率が高いシーン特徴量が抽出される画像と、その状態において観測される確率が高い単語とは、同時に観測されやすいので、ある状態において観測される確率が高い単語は、その状態において観測される確率が高いシーン特徴量が抽出される画像（シーン）の内容を表現している、ということができる。

　したがって、アノテーションモデルの各状態において観測される確率が高い単語は、その状態において観測される確率が高いシーン特徴量が抽出される画像（フレーム）のアノテーションとして利用することができる。

　すなわち、アノテーションモデルによれば、コンテンツへのアノテーションの付与を、容易に行うことができる。

　［アノテーション付与装置１４の構成例］

　図８は、図１のアノテーション付与装置１４の構成例を示すブロック図である。

　アノテーション付与装置１４は、特徴量抽出部４１、最尤状態系列算出部４２、及び、単語選択部４３を有する。

　特徴量抽出部４１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部１１から取得する（読み出す）。

　ここで、特徴量抽出部４１では、対象コンテンツが、例えば、ユーザの操作に従って選択される。また、例えば、コンテンツ記憶部１１に記憶されたコンテンツのうちの、まだ、対象コンテンツとして選択されていないコンテンツ（アノテーションが付与されていないコンテンツ）を、対象コンテンツとして選択することもできる。

　コンテンツ記憶部１１に記憶されたコンテンツの中から対象コンテンツとして選択するコンテンツは、学習用コンテンツのように、説明テキストを取得することができるコンテンツであってもよいし、説明テキストを取得することができないコンテンツであってもよい。

　対象コンテンツが、説明テキストを取得することができるコンテンツである場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、特徴量抽出部４１は、学習装置１２の特徴量抽出部２１（図２）と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部４１は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部４２に供給する。

　また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部４１は、学習装置１２の特徴量抽出部２１（図２）と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部４１は、例えば、0や1等の所定の値の多項分布であるダミーのデータ（テキスト特徴量と同一次元の多項分布）を、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部４２に供給する。

　最尤状態系列算出部４２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）において、特徴量抽出部４１からのアノテーション用系列が観測される最尤状態系列（アノテーション用系列が観測される尤度が最も高いアノテーションモデルの状態の系列）を、例えば、Viterbiアルゴリズムに従って求め、単語選択部４３に供給する。

　最尤状態系列は、その最尤状態系列のt番目の状態（になっているアノテーションモデルの状態）において、対象コンテンツの第tフレームが観測されることが、尤もらしいことを表す。

　ここで、マルチストリームHMMであるアノテーションモデルにおいて、ある系列（時系列データ）が観測される最尤状態系列を求めることは、その系列を、マルチストリームHMMを用いて認識（パターン認識）することに相当する。

　また、アノテーション用系列は、対象コンテンツのフレーム単位のシーン特徴量とテキスト特徴量とから構成されるので、対象コンテンツのフレーム単位のサンプル値の系列であり、そのようなアノテーション用系列に対して、最尤状態系列を求めることにより、対象コンテンツの各フレームは、最尤状態系列を構成する各状態に対応付けられる。

　したがって、最尤状態系列によれば、対象コンテンツの第tフレームは、最尤状態系列のt番目の状態に対応付けられるので、対象コンテンツの第tフレームが、最尤状態系列のt番目の状態にクラスタリングされているとみなすことができる。

　なお、アノテーション用系列を構成するテキスト特徴量が、単語頻度情報である場合には、最尤状態系列算出部４２は、最尤状態系列を求めるにあたり、式（１）に従って計算する、マルチストリームであるアノテーション用系列の出力確率分布b_j(o_[1],o_[2],・・・,o_[M])の系列重みW_mを、各構成要素系列o_[m]に等分配する値、すなわち、例えば、1/Mとする。

　したがって、アノテーション用系列が、シーン特徴量の構成要素系列o_[1]と、テキスト特徴量の構成要素系列o_[2]との２種類（２モーダル）で構成される場合、系列重みW₁及びW₂は、いずれも、0.5にされる。

　また、アノテーション用系列を構成するテキスト特徴量が、ダミーのデータである場合には、最尤状態系列算出部４２は、最尤状態系列を求めるにあたり、式（１）に従って計算する、マルチストリームであるアノテーション用系列の出力確率分布b_j(o_[1],o_[2],・・・,o_[M])の系列重みW_mを、テキスト特徴量の構成要素系列については、0とし、他の構成要素系列については、例えば、1/(M-1)とする。

　ここで、式（１）では、系列重みW_mの総和が1になるように、系列重みW_mを設定するようになっているが、系列重みW_mは、その総和が1以外の値になるように設定してもよい。

　単語選択部４３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部４２からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度（出力確率）の多項分布である出力確率分布において、頻度が高い単語（観測される確率が高い単語）、すなわち、例えば、頻度が最も高い単語や、頻度が上位R（＞１）位以内の単語を、注目フレームに付与するアノテーション（となる単語）として選択する。

　単語選択部４３において、注目フレームについて、アノテーションが選択されることにより、注目フレームにアノテーションが付与される。

　そして、単語選択部４３は、対象コンテンツの各フレームに、アノテーションを付与すると、対象コンテンツのフレームごとに付与されたアノテーションを、アノテーション単語情報として出力する。

　単語選択部４３が出力するアノテーション単語情報は、例えば、コンテンツ記憶部１１に供給され、対象コンテンツに対応付けて記憶される。コンテンツ記憶部１１に記憶されたアノテーション単語情報は、例えば、対象コンテンツの再生時に、その対象コンテンツのフレームとともに、そのフレームに付与されるアノテーションを表示するのに用いることができる。

　［アノテーション付与処理］

　図９は、図８のアノテーション付与装置１４が対象コンテンツにアノテーションを付与するアノテーション付与処理を説明するフローチャートである。

　ステップＳ２１において、特徴量抽出部４１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ２２に進む。

　ステップＳ２２では、特徴量抽出部４１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ２２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、処理は、ステップＳ２３に進み、特徴量抽出部４１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部４１は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部４２に供給して、処理は、ステップＳ２３からステップＳ２５に進む。

　また、ステップＳ２２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含まないコンテンツである場合、処理は、ステップＳ２４に進み、特徴量抽出部４１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部４１は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部４２に供給して、処理は、ステップＳ２４からステップＳ２５に進む。

　ステップＳ２５では、最尤状態系列算出部４２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデル（対象コンテンツのカテゴリに一致するカテゴリの学習用コンテンツを用いて学習が行われたアノテーションモデル）を取得する。

　さらに、最尤状態系列算出部４２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部４１からのアノテーション用系列が観測される最尤状態系列を求め、単語選択部４３に供給して、処理は、ステップＳ２５からステップＳ２６に進む。

　ステップＳ２６では、単語選択部４３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部４２からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、注目フレームに付与するアノテーション（となる単語）を選択する。

　すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部４３は、最尤状態系列のt番目の状態において観測される単語の頻度の多項分布において、頻度が高い単語を、第tフレームに付与するアノテーションとして選択し、これにより、第tフレームに、アノテーションが付与される。

　その後、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップＳ２６からステップＳ２７に進み、単語選択部４３は、対象コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号（第tフレームのt）とを対応付け、アノテーション単語情報として出力し、アノテーション付与処理は、終了する。

　以上のように、アノテーション付与装置１４では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される多項分布において頻度が高い単語を、注目フレームに付与するアノテーションとして選択するので、対象コンテンツへのアノテーションの付与を、容易に行うことができる。

　また、アノテーション付与装置１４では、対象コンテンツについて、説明テキストを取得することができる場合（説明テキストが存在する場合）には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合（説明テキストが存在しない場合）には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツ（の各フレーム）に、アノテーションを付与することができる。

　すなわち、例えば、説明テキストとしての字幕のテキストを含む対象コンテンツについては、その対象コンテンツの字幕のテキストに出現しない単語であっても、対象コンテンツの内容を適切に表現する単語が、アノテーションモデルにおいて観測される確率が高い場合には、その単語が、アノテーションとして、対象コンテンツに付与される。

　また、例えば、説明テキストとしての字幕のテキストを含まない対象コンテンツについては、説明テキストが存在しないのにもかかわらず、アノテーションが付与される。

　［フレーム検索装置１５の構成例］

　図１０は、図１のフレーム検索装置１５の構成例を示すブロック図である。

　フレーム検索装置１５は、特徴量抽出部５１、最尤状態系列算出部５２、キーワード合致度算出部５３、キーワード供給部５４、及び、フレーム選択部５５を有する。

　特徴量抽出部５１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツを、例えば、図８の特徴量抽出部４１と同様に選択し、コンテンツ記憶部１１から取得する（読み出す）。

　すなわち、特徴量抽出部５１は、例えば、ユーザの操作に従って、対象コンテンツを選択する。また、特徴量抽出部５１は、例えば、コンテンツ記憶部１１に記憶されたコンテンツのうちの、まだ、対象コンテンツとして選択されていないコンテンツを、対象コンテンツとして選択する。

　なお、コンテンツ記憶部１１に記憶されたコンテンツの中から対象コンテンツとして選択するコンテンツは、学習用コンテンツのように、説明テキストを取得することができるコンテンツであってもよいし、説明テキストを取得することができないコンテンツであってもよい。

　対象コンテンツが、説明テキストを取得することができるコンテンツである場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、特徴量抽出部５１は、図８の特徴量抽出部４１と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部５１は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部５２に供給する。

　また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部５１は、図８の特徴量抽出部４１と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出し、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。

　そして、特徴量抽出部５１は、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とから構成したアノテーション用系列を、最尤状態系列算出部５２に供給する。

　最尤状態系列算出部５２は、図８の最尤状態系列算出部４２と同様に、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）において、特徴量抽出部５１からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部５３に供給する。

　キーワード合致度算出部５３には、最尤状態系列５２から、対象コンテンツについての最尤状態系列が供給される他、キーワード供給部５４から、所定の単語（群）が、キーワードとして供給される。

　キーワード合致度算出部５３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部５２からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布、つまり、注目フレームに対応する状態の出力確率分布において、キーワード供給部５４からのキーワードが観測される確率（頻度）を、注目フレームの内容がキーワードに合致しているキーワード合致度として算出し、フレーム選択部５５に供給する。

　キーワード供給部５４は、例えば、ユーザがキーボード等を操作することにより入力した単語を、対象コンテンツからフレームを検索するためのキーワードとして、そのキーワードを含む、検索を要求する検索クエリ(query)を、キーワード合致度算出部５３に供給する。

　フレーム選択部５５は、コンテンツ記憶部１１から、対象コンテンツを取得し、キーワード合致度選択部５３からのキーワード合致度に基づいて、対象コンテンツから、キーワード（検索クエリ）に合致するキーワードフレームを選択する。

　すなわち、フレーム選択部５５は、例えば、対象コンテンツから、キーワード合致度選択部５３からのキーワード合致度が所定の閾値（以下、検索閾値ともいう）より高いフレームを、キーワードフレームとして選択する。

　そして、フレーム選択部５５は、対象コンテンツから選択したキーワードフレームの時系列順の並びを、対象コンテンツのダイジェストであるキーワードダイジェストとして出力する。

　なお、検索閾値は、例えば、あらかじめ設定しておくこともできるし、ユーザの操作に応じて設定することもできる。

　フレーム選択部５５が出力するキーワードダイジェストは、例えば、ユーザの操作に応じて再生される。この場合、ユーザは、対象コンテンツのうちの、キーワードが内容を表すシーンだけを、ダイジェストとして、視聴することができる。

　ここで、キーワードダイジェストの再生については、キーワードダイジェストを構成するフレームを、その並び順（時系列順）に再生する他、キーワード合致度が高い順に再生することも可能である。

　［フレーム検索処理］

　図１１は、図１０のフレーム検索装置１５が対象コンテンツからキーワードフレームを検索し、キーワードダイジェストを生成するフレーム検索処理を説明するフローチャートである。

　キーワード供給部５５は、例えば、ユーザの操作に応じて、キーワードを含む検索クエリを、キーワード合致度算出部５３に供給する。

　また、ステップＳ３１ないしＳ３５において、図９のステップＳ２１ないしＳ２５とそれぞれ同様の処理が行われる。

　すなわち、ステップＳ３１において、特徴量抽出部５１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ３２に進む。

　ステップＳ３２では、特徴量抽出部５１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ３２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップＳ３３に進み、特徴量抽出部５１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部５１は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部５２に供給して、処理は、ステップＳ３３からステップＳ３５に進む。

　また、ステップＳ３２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップＳ３４に進み、特徴量抽出部５１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部５１は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部５２に供給して、処理は、ステップＳ３４からステップＳ３５に進む。

　ステップＳ３５では、最尤状態系列算出部５２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。

　さらに、最尤状態系列算出部５２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部５１からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部５３に供給して、処理は、ステップＳ３５からステップＳ３６に進む。

　ステップＳ３６では、キーワード合致度算出部５３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部５２からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、注目フレームのキーワード合致度を求める。

　すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード合致度算出部５３は、最尤状態系列のt番目の状態において観測される単語の頻度の多項分布における、キーワード供給部５４からの検索クエリに含まれるキーワードの頻度（キーワードが観測される確率）を、第tフレームのキーワード合致度として求める。

　キーワード合致度算出部５３は、対象コンテンツのフレームのすべてについて、キーワード合致度を求めると、そのキーワード合致度を、フレーム選択部５５に供給して、処理は、ステップＳ３６からステップＳ３７に進む。

　ステップＳ３７では、フレーム選択部５５は、コンテンツ記憶部１１から、対象コンテンツを取得し、キーワード合致度選択部５３からのキーワード合致度に基づいて、対象コンテンツから、キーワード（検索クエリ）に合致するキーワードフレームを選択する。

　すなわち、フレーム選択部５５は、例えば、対象コンテンツから、キーワード合致度選択部５３からのキーワード合致度が検索閾値より高いフレームを、キーワードフレームとして選択し、そのキーワードフレームの時系列順の並びを、キーワードダイジェストとして出力して、フレーム検索処理を終了する。

　以上のように、フレーム検索装置１５では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される単語の多項分布において、キーワードの頻度が検索閾値より高い場合に、注目フレームを、キーワードフレームとして選択するので、そのようなキーワードフレームだけのキーワードダイジェストを再生するという、アノテーションモデルを利用したアプリケーションを提供することができる。

　なお、フレーム検索装置１５でも、アノテーション付与装置１４と同様に、対象コンテンツについて、説明テキストを取得することができる場合には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツから、キーワードダイジェストを生成することができる。

　ここで、図１０及び図１１では、検索クエリに、１つのキーワードだけが含まれることとして、フレーム選択部５５において、そのキーワードに合致するフレーム（キーワード合致度が検索閾値より高いフレーム）を、キーワードフレームとして、対象コンテンツから検索（選択）するようにしたが、検索クエリには、複数のキーワードからなる検索式を含め、その検索式に合致するフレームを、キーワードフレームとして、対象コンテンツから検索することができる。

　図１２ないし図１４は、複数のキーワードからなる検索式に合致するフレームを、キーワードフレームとして検索する方法を説明する図である。

　例えば、いま、４つのキーワードKW#1，KW#2，KW#3，KW#4からなる検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)を含む検索クエリが、キーワード供給部５４からキーワード合致度算出部５３に供給されたとする。

　ここで、AND検索式KW#1 AND KW#2は、キーワードKW#1とKW#2の両方に合致することを表し、OR検索式KW#1 OR KW#2は、キーワードKW#1又はKW#2に合致することを表す。検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)において、括弧()は、そのかっこ内の検索式を優先的に処理することを表す。

　検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)を含む検索クエリについては、キーワード合致度算出部５３は、その検索クエリに含まれるキーワードKW#1，KW#2，KW#3，KW#4のそれぞれに対して、対象コンテンツの各フレームのキーワード合致度を求める。

　図１２は、キーワードKW#1，KW#2，KW#3，KW#4のそれぞれに対して求められた、対象コンテンツの各フレームのキーワード合致度の例を示す図である。

　図１２では、キーワードKW#1に対する対象コンテンツの第tフレーム、第t+1フレーム、第t+2フレーム、第t+3フレーム、第t+4フレーム、及び、第t+5フレームのキーワード合致度は、それぞれ、100,150,20,0,0,0になっている。

　また、キーワードKW#2に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、50,200,30,0,0,0になっている。

　さらに、キーワードKW#3に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、0,0,0,150,40,200になっており、キーワードKW#4に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、0,0,0,200,100,50になっている。

　キーワード合致度算出部５３は、キーワードKW#1ないしKW#4のそれぞれに対するキーワード合致度を求めると、検索クエリのAND検索式については、キーワード合致度の数値minオペレーションを行い、検索クエリのOR検索式については、キーワード合致度の数値maxオペレーションを行うことによって、検索クエリ（の検索式）に対するキーワード合致度を求める。

　図１３は、AND検索式の演算としての数値minオペレーションを説明する図である。　

　キーワード合致度算出部５３は、検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)のAND検索式KW#1 AND KW#2、及び、AND検索式KW#3 AND KW#4のそれぞれに従い、キーワード合致度の数値minオペレーションを行うことによって、AND検索式KW#1 AND KW#2に対するキーワード合致度と、AND検索式KW#3 AND KW#4に対するキーワード合致度とを求める。

　すなわち、キーワード合致度算出部５３は、AND検索式KW#1 AND KW#2に従い、対象コンテンツの各フレームについて、キーワードKW#1に対するキーワード合致度と、キーワードKW#2に対するキーワード合致度とのうちの、値が小さい方のキーワード合致度を、AND検索式KW#1 AND KW#2に対するキーワード合致度として選択する。

　同様に、キーワード合致度算出部５３は、AND検索式KW#3 AND KW#4に従い、対象コンテンツの各フレームについて、キーワードKW#3に対するキーワード合致度と、キーワードKW#4に対するキーワード合致度とのうちの、値が小さい方のキーワード合致度を、AND検索式KW#3 AND KW#4に対するキーワード合致度として選択する。

　その結果、図１３に示すように、第tフレームないし第t+5フレームの、AND検索式KW#1 AND KW#2に対するキーワード合致度は、それぞれ、100,150,100,0,0,0となり、AND検索式KW#3 AND KW#4に対するキーワード合致度は、それぞれ、0,0,0,150,40,50となる。

　その後、キーワード合致度算出部５３は、検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)のOR検索式に従い、キーワード合致度の数値maxオペレーションを行うことによって、そのOR検索式に対するキーワード合致度を求める。

　図１４は、OR検索式の演算としての数値maxオペレーションを説明する図である。

　キーワード合致度算出部５３は、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に従い、対象コンテンツの各フレームについて、AND検索式KW#1 AND KW#2に対するキーワード合致度と、AND検索式KW#3 AND KW#4に対するキーワード合致度とのうちの、値が大きい方のキーワード合致度を、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度として選択する。

　その結果、図１４に示すように、第tフレームないし第t+5フレームの、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度、すなわち、検索クエリの検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度は、それぞれ、100,150,100,150,40,50となる。

　キーワード合致度算出部５３は、以上のようにして、検索クエリ（の検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)）に対するキーワード合致度を求めると、その検索クエリに対するキーワード合致度を、フレーム選択部５５（図１０）に供給する。

　フレーム選択部５５は、キーワード合致算出部５３からの、検索クエリに対するキーワード合致度が検索閾値より高いフレームを、検索クエリに合致するキーワードフレームとして、対象コンテンツから選択する。

　例えば、いま、検索閾値が、90に設定されていることとすると、図１４では、第tフレームないし第t+5フレームの中の、検索クエリに対するキーワード合致度が検索閾値より高い第tフレームないし第t+3フレームが、キーワードフレームとして選択される。

　［表示制御装置１６の構成例］

　図１５は、図１の表示制御装置１６の構成例を示すブロック図である。

　表示制御装置１６は、特徴量抽出部６１、最尤状態系列算出部６２、及び、表示制御部６３を有する。

　特徴量抽出部６１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを、例えば、ユーザの操作に従って選択し、コンテンツ記憶部１１から取得する（読み出す）。

　そして、特徴量抽出部６１は、図８の特徴量抽出部４１と同様に、対象コンテンツから、画像特徴量としてのシーン特徴量を抽出し、そのシーン特徴量を用いて、アノテーション用系列を構成して、最尤状態系列算出部６２に供給する。

　すなわち、対象コンテンツが、説明テキストを取得することができるコンテンツである場合、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部６１は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部６２に供給する。

　また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出し、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。

　そして、特徴量抽出部６１は、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とから構成したアノテーション用系列を、最尤状態系列算出部６２に供給する。

　最尤状態系列算出部６２は、図８の最尤状態系列算出部４２と同様に、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）において、特徴量抽出部６１からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部６３に供給する。

　表示制御部６３は、例えば、図８の単語選択部４３と同様に、最尤状態系列算出部６２からの最尤状態系列を用いて、対象コンテンツのフレームに付与されるアノテーションを求め（アノテーションとなる単語を選択し）、図示せぬディスプレイに表示させる。

　すなわち、表示制御部６３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部６２からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度（出力確率）の多項分布である出力確率分布において、頻度が高い単語（観測される確率が高い単語）を、注目フレームに付与するアノテーション（となる単語）として選択することにより、注目フレームにアノテーションを付与する。

　そして、表示制御部６３は、対象コンテンツの各フレームに付与されたアノテーションを、例えば、アノテーションモデルの状態ごとに、ディスプレイに表示させる。

　ここで、対象コンテンツのフレームのうちの、ある状態s_iに対応するフレーム（最尤状態系列を構成する状態の中に、アノテーションモデルの状態s_iが存在する場合の、その状態s_iに対応するフレームすべて）については、その状態s_iの出力確率分布に基づいて、アノテーションが付与されるので、同一の単語が、アノテーションとして付与される。

　したがって、フレームには、アノテーションモデルの状態の単位で、アノテーションが付与されるので（同一の状態s_iに対応するフレームには、同一のアノテーションが付与されるので）、表示制御部６３では、対象コンテンツの各フレームに付与されたアノテーションを、アノテーションモデルの状態ごとに、ディスプレイに表示させることができる。

　対象コンテンツの各フレームに付与されたアノテーションを、アノテーションモデルの状態ごとに表示する方法としては、例えば、モデルマップを用いる方法がある。

　モデルマップは、アノテーションモデルの状態が配置されるマップであり、表示制御部６３は、モデルマップ上の状態の位置の座標である状態座標を求め、その状態座標の位置に、対応する状態を配置したモデルマップを描画する。

　図１６は、表示制御部６３で描画されるモデルマップの例を示す図である。

　ここで、アノテーションモデルにおいて、対象コンテンツから得られるアノテーション用系列が観測される最尤状態系列（以下、対象コンテンツに対するアノテーションモデルの最尤状態系列ともいう）の先頭を基準とする時刻tの状態（最尤状態系列を構成する、先頭からt番目の状態）を、s(t)と表すとともに、対象コンテンツのフレーム数を、Tと表すこととする。

　この場合、対象コンテンツに対するアノテーションモデルの最尤状態系列は、T個の状態s(1)，S(2)，・・・，s(T)の系列であり、そのうちのt番目の状態（時刻tの状態）s(t)は、対象コンテンツの時刻tのフレーム（フレームt）に対応する。

　また、アノテーションモデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、アノテーションモデルを構成するN個の状態s₁，s₂，・・・，s_Nのうちのいずれかである。

　いま、対象コンテンツに対するアノテーションモデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s₁ないしs_Nのうちのi番目の状態s_iであるとすると、時刻tのフレームは、状態s_iに対応する。

　したがって、最尤状態系列が求められることにより、対象コンテンツの各フレームは、アノテーションモデルのN個の状態s₁ないしs_Nのうちのいずれかに対応付けられる。

　対象コンテンツに対するアノテーションモデルの最尤状態系列の実体は、対象コンテンツの各時刻tのフレームが対応する、N個の状態s₁ないしs_Nのうちのいずれかの状態の状態IDの系列である。

　表示制御部６３（図１５）は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（最尤状態系列を求めるのに用いられたアノテーションモデル）の１つの状態s_iから他の１つの状態s_jへの状態間距離d_ij ^*を、１つの状態s_iから他の１つの状態s_jへの状態遷移確率a_ijに基づいて求める。

　ここで、表示制御部６３は、例えば、状態遷移確率a_ijが所定の閾値（例えば、(1/N)×10^-2）より大である場合、状態間距離d_ij ^*を、例えば、0.1（小さい値）とし、状態遷移確率a_ijが所定の閾値以下である場合、状態間距離d_ij ^*を、例えば、1.0（大きい値）とする。

　表示制御部６３は、アノテーションモデルのN個の状態の任意の状態s_iから任意の状態s_jへの状態間距離d_ij ^*を求めると、その状態間距離d_ij ^*をコンポーネントとするN行N列の行列（状態間距離行列）を用いて、状態座標Y_iを求める。

　すなわち、表示制御部６３は、アノテーションモデルのN個の状態s₁ないしs_Nが配置されるマップであるモデルマップ上の、１つの状態s_iから他の１つの状態s_jへのユークリッド距離d_ijと、状態間距離行列の状態間距離d_ij ^*との誤差が小さくなるように、モデルマップ上の状態s_iの位置の座標である状態座標Y_iを求める。

　具体的には、例えば、表示制御部６３は、ユークリッド距離d_ijと、状態間距離d_ij ^*との統計的な誤差に比例するSammon Mapのエラー関数Eを最小にするように、状態座標Y_iを求める。

　ここで、Sammon Mapは、多次元尺度法の１つであり、その詳細は、例えば、J. W. Sammon, JR., "A Nonlinear Mapping for Data Structure Analysis", IEEE Transactions on Computers, vol. C-18, No. 5, May 1969に記載されている。

　Sammon Mapでは、例えば、式（４）のエラー関数Eを最小にするように、例えば、２次元のマップであるモデルマップ上の状態座標Y_i=(x_i,y_i)（x座標とy座標）が求められる。

　　　　　　　　　　　　　　　　　　　　　　　　・・・（４）

　ここで、式（４）において、Nは、アノテーションモデルの状態の総数を表し、i及びjは、1ないしNの範囲の整数値をとる、状態を特定する状態IDである。

　d_ij ^*は、状態間距離行列の第i行第j列の要素（コンポーネント）を表し、状態s_iから状態s_jへの状態間距離を表す。d_ijは、モデルマップ上の、状態s_iの位置の座標（状態座標）Y_iと、状態s_jの位置の座標Y_jとの間のユークリッド距離を表す。

　表示制御部６３は、式（４）のエラー関数Eが最小になるように、状態座標Y_i(i=1,2,・・・,N)を、勾配法の反復適用により求める。

　そして、表示制御部６３は、状態座標Y_iの位置に、対応する状態s_i（の画像）を配置したモデルマップ（のグラフィクス）を描画する。また、表示制御部６３は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。

　さらに、表示制御部６３は、モデルマップ上の状態s_iの位置に、その状態s_iに対応するフレームを代表する代表画像や、その状態s_iに対応するフレームに付与されたアノテーションを配置し、ディスプレイに表示させる。

　なお、表示制御部６３は、コンテンツ記憶部１１から対象コンテンツを取得し、その対象コンテンツの、状態s_iに対応するフレームのうちの、表示時刻（再生時刻）が最も早いフレーム（コンテンツの、より先頭側のフレーム）を縮小することで得られるサムネイル等を、状態s_iに対応するフレームの代表画像として生成する。

　ここで、状態s_iに対応するフレームの代表画像としては、状態s_iに対応するフレームのうちの、表示時刻が最も早いフレーム（先頭のフレーム）だけを用いた静止画のサムネイルの他、例えば、先頭側の複数フレームを用いた、アニメーションGIFのような動画のサムネイルを採用することが可能である。

　図１６は、表示制御部６３によって表示されるモデルマップのみの表示例（代表画像とアノテーションが配置されていないモデルマップの表示例）を示している。

　図１６のモデルマップにおいて、楕円は、状態を表し、楕円どうしを結ぶ線分（点線）は、状態遷移を表す。また、楕円に付してある数字は、その楕円が表す状態の状態IDを表す。

　表示制御部６３は、上述したようにして求められる状態座標Y_iの位置に、対応する状態s_i（の画像（図１６では、楕円））を配置したモデルマップ（のグラフィクス）を描画する。

　さらに、表示制御部６３は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。すなわち、表示制御部６３は、モデルマップ上の状態s_iから他の状態s_jへの状態遷移確率が、所定の閾値より大である場合には、それらの状態s_iとs_jとの間を結ぶ線分を描画する。

　ここで、モデルマップにおいて、状態等は、強調して描画することができる。

　すなわち、図１６のモデルマップにおいて、状態s_iは、楕円（円を含む）等で描画されるが、この状態s_iを表す楕円等は、例えば、その状態s_iの出力確率分布b_i(o)の最大値等に応じて、半径や色を変化させて描画することができる。

　また、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分は、状態遷移確率の大きさに応じて、線分の幅や色を変化させて描画することができる。

　ところで、図１５の表示制御部６３において、式（４）のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めた場合、状態（を表す楕円）は、図１６に示したように、モデルマップ上に、円状に配置される。

　そして、この場合、円状のモデルマップの円周付近（外側）（外縁）に、状態が密集し、状態の配置が見にくくなって、いわば、可視性が損なわれることがある。

　そこで、図１５の表示制御部６３では、式（４）のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めることができる。　

　すなわち、表示制御部６３では、ユークリッド距離d_ijが、所定の閾値THd（例えば、THd=1.0等）より大であるかどうかを判定する。

　そして、ユークリッド距離d_ijが、所定の閾値THdより大でない場合には、表示制御部６３は、式（４）のエラー関数の演算において、ユークリッド距離d_ijとして、そのユークリッド距離d_ijを、そのまま用いる。

　一方、ユークリッド距離d_ijが、所定の閾値THdより大である場合には、表示制御部６３は、式（４）のエラー関数の演算において、ユークリッド距離d_ijとして、状態間距離d_ij ^*を用いる（d_ij＝d_ij ^*とする）（ユークリッド距離d_ijを、状態間距離d_ij ^*に等しい距離とする）。

　この場合、モデルマップにおいて、ユークリッド距離d_ijが、ある程度近い（閾値THdより大でない）２つの状態s_i及びs_jに注目したときには、状態座標Y_i及びY_jは、ユークリッド距離d_ijと状態間距離d_ij ^*とが一致するように（ユークリッド距離d_ijが状態間距離d_ij ^*に近づくように）変更される。

　一方、モデルマップにおいて、ユークリッド距離d_ijが、ある程度遠い（閾値THdより大の）２つの状態s_i及びs_jに注目したときには、状態座標Y_i及びY_jは、変更されない。

　その結果、ユークリッド距離d_ijが、ある程度遠い２つの状態s_i及びs_jは、ユークリッド距離d_ijが遠いままとされるので、図１６に示したように、モデルマップの円周（外縁）付近に、状態が密集することによって、可視性が損なわれることを防止することができる。

　図１７は、修正後のエラー関数Eを用いて得られるモデルマップの表示例を示す図である。

　図１７のモデルマップによれば、円周付近に、状態が密集していないことを確認することができる。

　図１８及び図１９は、表示制御部６３によって表示される、代表画像とアノテーションとが配置されたモデルマップの表示例を示す図である。

　なお、図１９は、図１８の太線の楕円で囲む部分を拡大した拡大図である。

　図１８及び図１９では、状態s_iは、矩形で描画されている。

　但し、図１８及び図１９のモデルマップでは、アノテーションモデルの状態の中で、対応するフレーム（対象コンテンツのフレーム）が存在する状態だけが、矩形で描画されており、対応するフレームが存在しない状態は、描画されていない（状態遷移を表す線分どうしの交点として描画されている）。

　また、対応するフレームが存在する状態を表す矩形には、その状態に対応するフレームの代表画像が表示（配置）され、さらに、下部には、その状態に対応するフレームに付与されたアノテーションとしての単語が表示されている。

　表示制御部６３では、例えば、ユーザが再生を要求したコンテンツを、対象コンテンツとして、その対象コンテンツについて、図１８及び図１９に示したような、代表画像とアノテーションとが配置されたモデルマップを表示させることができる。

　さらに、表示制御部６３では、現在再生されているフレーム（以下、再生フレームともいう）に対応する状態については、代表画像に代えて、再生フレームの画像を、代表画像より大きく表示させることができる。

　また、表示制御部６３では、再生フレームに対応する状態については、アノテーションも、他の状態より大きく表示させることができる。

　さらに、表示制御部６３では、ユーザにより、代表画像が指定されたときに、その代表画像が表示された状態に対応するフレームのうちの、例えば、表示時刻が最も早いフレームから再生を開始するように、対象コンテンツの再生制御を行うことができる。

　ここで、アノテーションモデルの状態に対応するフレームに付与されるアノテーションを、状態のアノテーションともいい、アノテーションモデルの状態に対応するフレームの代表画像を、状態の代表画像ともいう。

　以上のように、対象コンテンツについて、アノテーションモデルの状態ごとに、その状態のアノテーション及び代表画像を表示することにより、ユーザは、アノテーションや代表画像を参照することにより、興味がある内容のフレームを（の集まり）、容易に探し出すことができ、そのフレームからの再生を行うことができる。

　したがって、ユーザが、状態のアノテーションを見て、再生を開始するフレームを指定するという、アノテーションを利用したアプリケーションを提供することができる。

　［表示制御処理］

　図２０は、図１５の表示制御装置１６がモデルマップを表示させる表示制御処理を説明するフローチャートである。

　ステップＳ５１ないしＳ５５において、表示制御装置１６では、図９のステップＳ２１ないしＳ２５とそれぞれ同様の処理が行われる。

　すなわち、ステップＳ５１において、特徴量抽出部６１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ５２に進む。

　ステップＳ５２では、特徴量抽出部６１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ５２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップＳ５３に進み、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部６１は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部６２に供給して、処理は、ステップＳ５３からステップＳ５５に進む。

　また、ステップＳ５２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップＳ５４に進み、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部６１は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部６２に供給して、処理は、ステップＳ５４からステップＳ５５に進む。

　ステップＳ５５では、最尤状態系列算出部６２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。

　さらに、最尤状態系列算出部６２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部６１からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部６３に供給して、処理は、ステップＳ５５からステップＳ５６に進む。

　ここで、対象コンテンツについて、最尤状態系列が求められることにより、対象コンテンツの第tフレームは、アノテーションモデルの状態のうちの、最尤状態系列のt番目の状態になっている状態に対応付けられる。

　ステップＳ５６では、表示制御部６３は、コンテンツ記憶部１１から対象コンテンツを取得する。さらに、表示制御部６３は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルの各状態について、その状態に対応する、対象コンテンツのフレームを用いて、状態（に対応するフレーム）の代表画像を生成し、処理は、ステップＳ５６からステップＳ５７に進む。

　すなわち、いま、アノテーションモデルのある状態に注目すると、表示制御部６３は、注目する注目状態に対応する、対象コンテンツのフレームのうちの、表示時刻が最も早いフレームを縮小することで得られるサムネイルを、注目状態の代表画像として生成する。

　なお、注目状態に対応するフレームが存在しない場合（最尤状態系列に、注目状態が存在しない場合）、注目状態については、代表画像は生成されない。

　ステップＳ５７では、表示制御部６３は、アノテーション付与装置１４（図１８）と同様に、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部６２からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、頻度（出力確率）が高い単語を、注目フレームに付与するアノテーション（となる単語）として選択し、これにより、注目フレームに、アノテーションを付与する。

　ここで、ある状態に対応するフレームには、同一のアノテーションが付与されるので、対象コンテンツの各フレームに、アノテーションを付与することは、状態にアノテーションを付与することと等価である。

　なお、状態へのアノテーションの付与は、その状態に対応するフレームへのアノテーションの付与と同様に、その状態において観測される単語の頻度の多項分布に基づいて、頻度（出力確率）が高い単語を、状態に付与するアノテーション（となる単語）として選択することにより行うことができる。

　ステップＳ５７において、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップＳ５８に進み、表示制御部６３は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（対象コンテンツについて、最尤状態系列を求めるのに用いられたアノテーションモデル）を用い、上述したようにして、モデルマップ（図１６、図１７）を生成する。

　そして、処理は、ステップＳ５８からステップＳ５９に進み、表示制御部６３は、モデルマップを、ディスプレイに表示させる。

　さらに、表示制御部６３は、ステップＳ５６で生成された代表画像、及び、ステップＳ５７で求められたアノテーションを用い、モデルマップ上の各状態（但し、対象コンテンツについて求められた最尤状態系列を構成しない状態を除く）に、その状態の代表画像とアノテーションとを表示させる。

　その後、処理は、ステップＳ５９からステップＳ６０に進み、表示制御部６３は、対象コンテンツの再生制御を行う。

　すなわち、表示制御部６３は、例えば、対象コンテンツの最初のフレームから再生を開始させ、図１８に示したように、モデルマップ上の、現在再生されているフレーム（再生フレーム）に対応する状態については、代表画像に代えて、再生フレームの画像を、代表画像より大きく表示させるとともに、アノテーションを、他の状態より大きく表示させる。

　さらに、表示制御部６３は、例えば、ユーザにより、モデルマップ上の、代表画像及びアノテーションが表示された状態が指定されると、いま、再生フレームになっているフレームの再生を終了させ、ユーザにより指定された状態に対応するフレームのうちの、表示時刻が最も早いフレームを、再生フレームとして、再生を再開させる。

　以上のように、表示制御装置１６では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される多項分布において頻度が高い単語を、注目フレームに付与するアノテーションとして選択し、例えば、モデルマップを用いた表示形式（図１８、図１９）で、アノテーションモデルの状態ごとに、状態に対応するフレームに付与するアノテーションを表示させるので、ユーザは、対象コンテンツに付与されたアノテーションを、一覧することができる。

　また、表示制御装置１６によれば、アノテーションが表示されるモデルマップ上の状態が指定されると、その状態に対応するフレームの再生を開始するという、アノテーションを利用したアプリケーションを提供することができる。

　さらに、表示制御装置１６でも、アノテーション付与装置１４、及び、フレーム検索装置１５と同様に、対象コンテンツについて、説明テキストを取得することができる場合には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツについて、アノテーションを表示することができる。

　ここで、対象コンテンツのフレームに付与されたアノテーションの、アノテーションモデルの状態ごとの表示は、モデルマップを用いた表示形式（図１８、図１９）以外の表示形式（ビュー）で行うことが可能である。

　すなわち、対象コンテンツのフレームに付与されたアノテーションの、アノテーションモデルの状態ごとの表示は、状態のアノテーションを、例えば、一方向に並べた表示形式や、２次元の表形式に並べた表示形式等で表示することが可能である。

　なお、学習装置１２の特徴量抽出部２１（図２）、アノテーション付与装置１４の特徴量抽出部４１（図８）、フレーム検索装置１５の特徴量抽出部５１（図１０）、及び、表示制御装置１６の特徴量抽出部６１（図１５）は、学習装置１２の特徴量抽出部２１（図２）によって兼用することが可能である。

　また、アノテーション付与装置１４の最尤状態系列算出部４２（図８）、フレーム検索装置１５の最尤状態系列算出部５２（図１０）、及び、表示制御装置１６の最尤状態系列算出部６２（図１６）は、そのうちのいずれか１つによって兼用することが可能である。

　［特徴量抽出部２１の第２の構成例］

　図２１は、図２の特徴量抽出部２１の第２の構成例を示すブロック図である。

　なお、図２１において、図３の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

　図２１の特徴量抽出部２１は、画像取得部３１、説明テキスト取得部３３、テキスト特徴量抽出部３４、及び、同期部３５を有する点で、図３の場合と共通する。

　但し、図２１の特徴量抽出部２１は、画像特徴量抽出部３２に代えて、画像特徴量抽出部１０１が設けられているとともに、音声取得部１０２、及び、音声特徴量抽出部１０３が新たに設けられている点で、図３の場合と相違する。

　画像特徴量抽出部１０１は、第１画像特徴量抽出部１０１_１、第２画像特徴量抽出部１０１_２、及び、第３画像特徴量抽出部１０１_３を有し、画像取得部３１から供給される画像の各フレームから、複数種類の画像特徴量として、例えば、第１画像特徴量、第２画像特徴量、及び、第３画像特徴量を抽出し、同期部３５に供給する。

　すなわち、第１画像特徴量抽出部１０１_１は、画像取得部３１からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、図３の画像特徴量抽出部３２と同様にして、シーン特徴量を、第１画像特徴量として抽出し、同期部３５に供給する。

　第２画像特徴量抽出部１０１_２は、画像取得部３１からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、人物が映っている領域を囲む最小の矩形の領域である人物矩形領域を検出する。

　さらに、第２画像特徴量抽出部１０１_２は、注目フレームを、複数の小領域であるサブ領域に分割し、各サブ領域について、そのサブ領域に存在する人物矩形領域のピクセル数を、サブ領域のピクセル数で除算することによって、サブ領域に占める人物矩形領域の割合（以下、人物矩形領域率ともいう）を求める。

　そして、第２画像特徴量抽出部１０１_２は、注目フレームの各サブ領域の人物矩形領域率をコンポーネントとするベクトルを構成し、そのベクトルを、注目フレームから抽出された第２画像特徴量として、同期部３５に供給する。

　第３特徴量抽出部１０１_２は、画像取得部３１からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、人物の顔が映っている領域を囲む最小の矩形の領域である顔矩形領域を検出する。

　さらに、第３画像特徴量抽出部１０１_３は、注目フレームを、複数の小領域であるサブ領域に分割し、各サブ領域について、そのサブ領域に存在する顔矩形領域のピクセル数を、サブ領域のピクセル数で除算することによって、サブ領域に占める顔矩形領域の割合（以下、顔矩形領域率ともいう）を求める。

　そして、第３画像特徴量抽出部１０１_３は、注目フレームの各サブ領域の顔矩形領域率をコンポーネントとするベクトルを構成し、そのベクトルを、注目フレームから抽出された第３画像特徴量として、同期部３５に供給する。

　なお、画像特徴量抽出部１０１において抽出する複数種類の画像特徴量は、上述したような第１画像特徴量ないし第３画像特徴量に限定されるものではない。

　音声取得部１０２は、例えば、コンテンツ記憶部１１から、画像取得部３１が取得するのと同一の学習用コンテンツを取得し、その学習用コンテンツから、音声を逆多重化（分離）することにより取得して、音声特徴量抽出部１０３に供給する。

　音声特徴量抽出部１０３は、音声取得部１０２からの音声から、音声特徴量を抽出し、同期部３５に供給する。

　すなわち、例えば、音声特徴量抽出部１０３は、音声分類（sound classification, audio classification)の分野で利用されているような、音声からシーン（例えば、「音楽」、「非音楽」、「ノイズ」、「人の声」、「人の声＋音楽」、および「観衆」など）を分類するのに適した音声特徴量を生成するための原始的な特徴量であるプリミティブ特徴量を抽出する。

　ここで、プリミティブ特徴量としては、例えば、音声のエネルギーや、ゼロ交差レート、スペクトル重心等がある。プリミティブ特徴量の抽出の方法については、例えば、「Zhu Liu; Jincheng Huang; Yao Wang; Tsuhan Chen, Audio feature extraction and analysis for scene classification, First Workshop on Multimedia Signal Processing, 1997., IEEE Volume, Issue , 23-25 Jun 1997 Page(s):343 - 348」、および「Brezeale, D. Cook, D.J., Automatic Video Classification: A Survey of the Literature, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, May 2008, Volume: 38, Issue: 3, pp. 416-430」に記載されている。

　音声特徴量抽出部１０３は、例えば、0.05秒等の時間長の窓を、0.05秒等の一定間隔でずらしながら、窓内の音声から、１種類以上のプリミティブ特徴量を抽出する。

　さらに、音声特徴量抽出部１０３は、プリミティブ特徴量を抽出した時刻を、順次、注目時刻として注目し、注目時刻の前後の0.5秒等の間のプリミティブ特徴量の平均値と分散等の統計量を求め、その平均値と分散をコンポーネントとするベクトルを、注目時刻の音声特徴量として、同期部３５に供給する。

　なお、図２１において、同期部３５は、画像特徴量抽出部１０１から供給される第１画像特徴量ないし第３画像特徴量、音声特徴量抽出部１０３から供給される音声特徴量、及び、テキスト特徴量抽出部３４から供給されるテキスト特徴量を、フレーム単位で同期させて出力する。

　すなわち、同期部３５は、例えば、注目する注目フレームから抽出された第１画像特徴量ないし第３画像特徴量、注目フレームの開始時刻等の所定の時刻に最も近い時刻の音声特徴量、及び、注目フレーム以降の時刻の位置の窓であって、注目フレームに時間的に最も近い位置の窓から得られたテキスト特徴量のセットが、注目フレームの第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量のセットになるように、画像特徴量抽出部１０１から供給される第１画像特徴量ないし第３画像特徴量、音声特徴量抽出部１０３から供給される音声特徴量、及び、テキスト特徴量抽出部３４から供給されるテキスト特徴量を同期させ、モデル学習部２２（図２）に出力する。

　この場合、モデル学習部２２は、特徴量抽出部２１から供給される学習用コンテンツの第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量を含むマルチストリームを、コンテンツにアノテーションを付与するためのアノテーション用のアノテーション用系列として、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。

　したがって、この場合、モデル学習部２２で学習に用いられるマルチストリームであるアノテーション用系列は、第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量の５つの構成要素系列o_[1]，o_[2]，o_[3]，o_[4]，o_[5]で構成される。

　そして、そのようなアノテーション用系列を用いて学習が行われることにより得られるアノテーションモデルの状態は、第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量の（５つのモーダルの）軸によって定義される空間である特徴量空間において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群をまとめて表現する（特徴量空間を状態分割する）。

　なお、図２１に示したように、学習装置１２の特徴量抽出部２１において、第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量の５つの特徴量が抽出される場合には、アノテーション付与装置１４の特徴量抽出部４１（図８）、フレーム検索装置１５の特徴量抽出部５１（図１０）、及び、表示制御装置１６の特徴量抽出部６１（図１５）でも、特徴量抽出部２１と同様に、第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量の５つの特徴量が抽出され、その５つの特徴量を含むアノテーション用系列を用いて、処理が行われる。

　但し、アノテーション付与装置１４の特徴量抽出部４１（図８）、フレーム検索装置１５の特徴量抽出部５１（図１０）、及び、表示制御装置１６の特徴量抽出部６１（図１５）では、対象コンテンツが、説明テキストを取得することができないコンテンツである場合には、テキスト特徴量としては、上述したように、ダミーのデータが用いられる。

　以上のように、アノテーション用系列を、多数の種類の特徴量である第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量から構成することにより、アノテーション用系列をシーン特徴量とテキスト特徴量とから構成する場合に比較して、コンテンツを、より適切に（精度良く）、内容が類似するフレームに分類することができる（最尤状態系列を求めたときに、内容が類似するフレームが、同一の状態に対応するようになる）。

　なお、音声特徴量としては、上述したプリミティブ特徴量（の平均値や分散）の他、音声認識等の音声処理で用いられている、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等を採用することができる。

　［特徴量抽出部２１の第３の構成例］

　図２２は、図２の特徴量抽出部２１の第３の構成例を示すブロック図である。

　なお、図２２において、図３の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

　図２２の特徴量抽出部２１は、画像取得部３１、画像特徴量抽出部３２、説明テキスト取得部３３、テキスト特徴量抽出部３４、及び、同期部３５を有する点で、図３の場合と共通する。

　但し、図２２の特徴量抽出部２１は、基底空間学習部１５１、基底空間データ記憶部１５２、次元圧縮部１５３、基底空間学習部１６１、基底空間データ記憶部１６２、及び、次元圧縮部１５３が新たに設けられている点で、図３の場合と相違する。

　基底空間学習部１５１には、画像特徴量抽出部３２から、学習用コンテンツの画像特徴量が供給される。

　基底空間学習部１５１は、画像特徴量を写像するための、画像特徴量の次元より小さい次元の画像用基底空間の基底空間データを、画像特徴量抽出部３２からの画像特徴量を用いて求め、基底空間データ記憶部１５２に供給する。

　基底空間データ記憶部１５２は、基底空間学習部１５１からの画像用基底空間の基底空間データを記憶する。

　次元圧縮部１５３には、画像特徴量抽出部３２から、学習用コンテンツの画像特徴量が供給される。

　次元圧縮部１５３は、基底空間データ記憶部１５２に記憶された画像用基底空間の基底空間データに基づき、画像特徴量抽出部３２からの画像特徴量の次元を小さくする次元圧縮を行い、次元圧縮後の画像特徴量を、同期部３５に供給する。

　ここで、画像特徴量抽出部３２で抽出される画像特徴量は、ベクトルであり、基底空間学習部１５１は、画像特徴量抽出部３２からの学習用コンテンツの画像特徴量を用い、例えば、k-means法により、ベクトル量子化に用いるコードブックを、画像用基底空間の基底空間データとして求める。

　そして、次元圧縮部１５３は、画像用基底空間の基底空間データとしてのコードブックを用いて、画像特徴量抽出部３２からの画像特徴量のベクトル量子化を行うことにより次元圧縮を行い、コードブックに登録されたセントロイドベクトルのうちの、画像特徴量抽出部３２からの画像特徴量としてのベクトルとの距離が最も近いセントロイドベクトルを表すコード（スカラの離散値）を、次元圧縮後の画像特徴量として求める。

　したがって、次元圧縮部１５３では、画像特徴量抽出部３２からの画像特徴量としての所定の次元のベクトルが、１次元のコードに次元圧縮されるが、この次元圧縮は、１次元のコードの空間を、画像用基底空間として、所定の次元のベクトルを、画像用基底空間に写像していると捉えることができる。

　なお、画像特徴量の次元圧縮は、ベクトル量子化の他、例えば、HMMやSOM(Self Organizing Maps)を用いて行うことができる。

　すなわち、画像特徴量抽出部３２で抽出される画像特徴量を用いて、HMMの学習を行い、学習後のHMMにおいて、画像特徴量の時系列が観測される最尤状態系列を求め、その最尤状態系列において、各画像特徴量に対応する状態の状態IDを、次元圧縮後の画像特徴量として求めることができる。

　また、例えば、画像特徴量抽出部３２で抽出される画像特徴量を用いて、SOMの学習を行い、学習後のSOMに対して、画像特徴量を入力したときに、勝者(winner)となるノードを表すIDを、次元圧縮後の画像特徴量として求めることができる。

　基底空間学習部１６１には、テキスト特徴量抽出部３４から、学習用コンテンツのテキスト特徴量が供給される。

　基底空間学習部１６１は、テキスト特徴量を写像するための、テキスト特徴量の次元より小さい次元のテキスト用基底空間の基底空間データを、テキスト特徴量抽出部３４からのテキスト特徴量を用いて求め、基底空間データ記憶部１６２に供給する。

　基底空間データ記憶部１６２は、基底空間学習部１６１からのテキスト用基底空間の基底空間データを記憶する。

　次元圧縮部１６３には、テキスト特徴量抽出部３４から、学習用コンテンツのテキスト特徴量が供給される。

　次元圧縮部１６３は、基底空間データ記憶部１６２に記憶されたテキスト用基底空間の基底空間データに基づき、テキスト特徴量抽出部３４からのテキスト特徴量の次元を小さくする次元圧縮を行い、次元圧縮後のテキスト特徴量を、同期部３５に供給する。

　ここで、テキスト特徴量抽出部３４で抽出されるテキスト特徴量は、説明テキストにおいて各単語が出現する頻度に関する単語頻度情報であり、例えば、図５及び図６で説明したように、所定の窓内（窓に対応する時間内）に表示される字幕のテキストに含まれる単語を、擬似文書として得られる、その擬似文書に、K個の単語が登録された単語辞書（図５）の各単語が出現する頻度をコンポーネントとするK次元のベクトル（登録単語頻度ベクトル）である。

　基底空間学習部１６１は、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルを用いて、例えば、LDA(Latent Dirichlet Allocation)の学習を行うことにより、LDAのパラメータを、テキスト用基底空間の基底空間データとして求める。

　そして、次元圧縮部１６３は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用いて、擬似文書から得られたテキスト特徴量を、その擬似文書に対するLDAの各潜在トピックの尤度であるトピック尤度に変換し、トピック尤度が最大の潜在トピックを表すトピックラベル（スカラの離散値）を、次元圧縮後のテキスト特徴量として求める。

　したがって、次元圧縮部１６３では、テキスト特徴量抽出部３４からのテキスト特徴量としてのK次元の登録単語頻度ベクトルが、１次元のトピックラベルに次元圧縮されるが、この次元圧縮は、１次元のトピックラベルの空間を、テキスト用基底空間として、K次元の登録単語頻度ベクトルを、テキスト用基底空間に写像していると捉えることができる。

　図２３は、図２２の基底空間学習部１６１が、テキスト用基底空間の基底空間データとしてのLDAのパラメータを求める、LDAの学習を説明する図である。

　基底空間学習部１６１は、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルを用いて、LDAの学習を行うことにより、LDAのパラメータを求める。

　LDAについては、例えば、David M. Blei, Andrew Y. Ng, Michael I. Jordan 著 “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3 (2003) 993-1022.等に記載されている。

　ここで、図２３では、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルの代わりに、図５で説明した頻度データ、すなわち、単語辞書に登録されているK個の単語のうちの、擬似文書に出現する単語の単語IDと、その単語の出現頻度（擬似文書に出現する頻度）とを対応付けた頻度データを図示してある。テキスト特徴量としての登録単語頻度ベクトルと、頻度データとは、等価なデータである。

　LDAのパラメータとしては、いわゆるαパラメータ及びβパラメータが求められるとともに、LDAの潜在トピックtopic（をトピックとする文書）において、単語辞書に登録された単語wordが生起される（対数）生起確率log（P(word|topic))が、単語辞書に登録された各単語（学習用コンテンツから得られる擬似文書に出現するすべての単語それぞれ）と、LDAの各潜在トピックとの組み合わせすべてについて求められる。

　したがって、単語辞書に登録された単語の数がK個であり、LDAの潜在トピックの数がD個であるとすると、単語の生起確率log（P(word|topic))は、は、K×D個だけ求められる。

　なお、LDAの学習において、潜在トピックの数Dとしては、あらかじめ決められた所定の値が用いられる。

　基底空間学習部１６１は、LDAの学習を行うことにより、LDAのパラメータを求めた後、単語の生起確率log（P(word|topic))を用いて、LDAの各潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度とを登録したトピック対頻出単語テーブルの作成を行う。

　すなわち、基底空間学習部１６１は、LDAの各潜在トピックを、順次、注目トピックとして、注目トピックにおいて、単語辞書の各単語が生起される生起確率log（P(word|topic))に、所定の定数（例えば、1000等）を乗算することにより、生起確率log（P(word|topic))を、注目トピックの文書に単語辞書の各単語が出現する出現頻度（回数）に変換する。

　さらに、基底空間学習部１６１は、注目トピックについて求められた単語辞書の各単語が出現する出現頻度を、所定の閾値（例えば、1等）と比較し、単語辞書の単語の中から、所定の閾値以上の出現頻度の単語を、注目トピックにおいて出現頻度が高い単語（以下、頻出単語ともいう）として選択する。

　そして、基底空間学習部１６１は、注目トピックのトピックラベル、注目トピックにおいて出現頻度が高い頻出単語、及び、頻出単語の出現頻度を対応付けて、トピック対頻出単語テーブルに登録する。

　ここで、図２３のトピック対頻出単語テーブルにおいて、"ldamap"の後の括弧{}内の数字が、トピックラベルであり、その後の"words"に続いて記載されている単語が、直前のトピックラベルが表す潜在トピックにおいて出現頻度が高い頻出単語である。

　また、頻出単語の後の"word_cnt"に続いて記載されている数字が、各頻出単語の出現頻度であり、その後の"numwords"に続く数字は、頻出単語の出現頻度の総和である。

　なお、トピック対頻出単語テーブルにおいて、各潜在トピックの頻出単語は、出現頻度の降順（出現頻度の大きい順）にソートしておくことができる。

　また、トピック対頻出単語テーブルは、例えば、アノテーションモデル、及び、単語辞書とともに、アノテーションモデル記憶部１３に記憶しておくことができる。

　基底空間学習部１６１は、以上のLDAのパラメータと、トピック対頻出単語テーブルとを、テキスト用基底空間の基底空間データとして求める。

　図２４は、図２２の次元圧縮部１６３が、図２３で説明したテキスト用基底空間の基底空間データを用いて行う、テキスト特徴量の次元圧縮を説明する図である。

　次元圧縮部１６３は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用いて、擬似文書から得られたテキスト特徴量を、その擬似文書に対するLDAの各潜在トピックの尤度であるトピック尤度に変換し、トピック尤度が最大の潜在トピックを表すトピックラベル（スカラの離散値）を、次元圧縮後のテキスト特徴量として求める。

　ここで、LDAのパラメータを用いたLDA認識処理によれば、文書docにおける各単語の出現頻度を表す頻度データから、その文書docのトピックがLDAの各潜在トピックであることの尤度を表すトピック尤度P(topic|doc)を、LDA認識処理の結果であるLDA認識結果データとして得ることができる。

　次元圧縮部１６３は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用い、テキスト特徴量抽出部３４からの、擬似文書から得られたテキスト特徴量としてのK次元の登録単語頻度ベクトルを入力として、LDA認識処理を行うことにより、テキスト特徴量が得られた擬似文書に対するLDAの各潜在トピックのトピック尤度を求める。

　したがって、LDA認識処理によれば、LDAの潜在トピックの数がD個であるとすると、K次元の登録単語頻度ベクトルが、D次元の離散確率分布としてのD個の潜在トピックのトピック尤度に写像されることになる。

　次元圧縮部１６３は、テキスト特徴量に対して、LDAのD個の潜在トピックのトピック尤度を求めると、そのD個の潜在トピックのトピック尤度の中の最大値である最大トピック尤度を検出し、その最大トピック尤度の潜在トピックのトピックラベルを、次元圧縮後のテキスト特徴量として出力する。

　以上のように、画像特徴量やテキスト特徴量の次元圧縮を行うことにより、次元圧縮を行わない場合に比較して、アノテーションモデルとしてのマルチストリームHMMの学習や、最尤状態系列を求める処理に要する演算量を低減することができる。

　なお、図２２では、同期部３５は、次元圧縮部１５３からの次元圧縮後の画像特徴量であるコード（以下、画像コードともいう）と、次元圧縮部１６３からの次元圧縮後のテキスト特徴量であるトピックラベルとを、フレーム単位で同期させて、モデル学習部２２（図２）に出力する。

　モデル学習部２２は、特徴量抽出部２１（の同期部３５）からの画像コードとトピックラベルとの系列を、アノテーション用系列として、マルチストリームHMMであるアノテーションモデルの学習を、Baum-Welchの再推定法に従って行う。

　ここで、いまの場合、アノテーション用系列は、１個目の構成要素系列o_[1]としての画像コードの系列と、２個目の構成要素系列o_[2]としてのトピックラベルの系列との２つの構成要素系列で構成される。

　アノテーション用系列の１個目の構成要素系列o_[1]である画像コードは、離散値であり、アノテーションモデルの各状態s_jの出力確率分布（観測モデル）b_[1]j(o_[1])として、多項分布が用いられる。

　また、２個目の構成要素系列o_[2]であるトピックラベルも、離散値であり、アノテーションモデルの各状態s_jの出力確率分布b_[2]j(o_[2])として、多項分布が用いられる。

　この場合、Baum-Welchの再推定法では、Eステップにおいて、初期確率π_i、状態遷移確率a_ij、及び、式（１）に従って求められる出力確率分布b_j(o_[1],o_[2])を用いて、h番目の学習用コンテンツについて、時刻tに、状態jにいる状態確率γ^(h) _t,jが、単一の系列を用いるHMMの学習の場合と同様にして求められる。

　また、Mステップでは、Eステップで求められた状態確率γ^(h) _t,jを用いて、各画像コードが観測される出力確率分布b_[1]jとしての多項分布、及び、各トピックラベルが観測される出力確率分布b_[2]jとしての多項分布が、多項分布を観測モデル（出力確率分布）として有するHMMの学習の場合と同様に、式（５）に従って求められる。

　　　　　　　　　　　　　　　　　　　　　　　　・・・（５）

　ここで、式（５）において、o^(h) _[m](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームにおいて、各画像コード（m=1のとき）、又は、各トピックラベル（m=2のとき）の観測の有無を示す多項分布を表す。

　画像コードの多項分布o^(h) _[1](t)は、画像コードの総数がK'個であるとすると、時刻tに観測される１個の画像コードの分布（確率）が1であり、残りの画像コードの分布がすべて0である多項分布となる。

　また、トピックラベルの多項分布o^(h) _[2](t)は、トピックラベルの総数（潜在トピックの数）がD個であるとすると、時刻tに観測される１個のトピックラベルの分布（確率）が1であり、残りのトピックラベルの分布がすべて0である多項分布となる。

　図２５は、学習装置１２の特徴量抽出部２１が図２２に示したように構成される場合の、アノテーション付与装置１４の特徴量抽出部４１（図８）の構成例を示すブロック図である。

　なお、フレーム検索装置１５の特徴量抽出部５１（図１０）、及び、表示制御装置１６の特徴量抽出部６１（図１５）も、アノテーション付与装置１４の特徴量抽出部４１と同様に構成される。

　図２５において、アノテーション付与装置１４（図８）の特徴量抽出部４１は、画像取得部１７１、画像特徴量抽出部１７２、基底空間データ記憶部１７３、次元圧縮部１７４、説明テキスト取得部１８１、テキスト特徴量抽出部１８２、基底空間データ記憶部１８３、次元圧縮部１８４、及び、同期部１９１を有する。

　図２５の特徴抽出部４１において、基底空間データ記憶部１７３は、図２２の基底空間学習部１５１で求められた画像用基底空間の基底空間データを記憶し、基底空間データ記憶部１８３は、図２２の基底空間学習部１６１で求められたテキスト用基底空間の基底空間データを記憶する。

　そして、画像取得部１７１、画像特徴量抽出部１７２、次元圧縮部１７４、説明テキスト取得部１８１、テキスト特徴量抽出部１８２、次元圧縮部１８４、及び、同期部１９１では、対象コンテンツについて、図２２の画像取得部３１、画像特徴量抽出部３２、次元圧縮部１５３、説明テキスト取得部３３、テキスト特徴量抽出部３４、次元圧縮部１６３、及び、同期部３５とそれぞれ同様の処理が行われ、これにより、次元圧縮後の画像特徴量としての画像コードと、次元圧縮後のテキスト特徴量としてのトピックラベルとがフレーム単位で同期したアノテーション用系列が構成される。

　但し、説明テキストを取得することができない対象コンテンツについては、次元圧縮後のテキスト特徴量としてのトピックラベルとして、ダミーのデータ（１次元の離散値）を用いて、アノテーション用系列が構成される。

　なお、図２２の特徴量抽出部２１では、画像特徴量とテキスト特徴量の両方について、次元圧縮を行うこととしたが、次元圧縮は、画像特徴量とテキスト特徴量のうちの一方についてだけ行うことが可能である。

　図２５の特徴量抽出部４１でも、同様である。但し、画像特徴量やテキスト特徴量について、次元圧縮を行うかどうかは、特徴量抽出部２１と、特徴量抽出部４１（特徴量抽出部５１及び６１）とで、一致させる必要がある。

　［テキスト特徴量について次元圧縮を行う場合のアノテーション付与処理］

　図２６は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図８のアノテーション付与装置１４によるアノテーション付与処理を説明するフローチャートである。

　なお、図２６では（後述する図２７、図２８、及び、図３０でも同様）、例えば、画像特徴量、及び、テキスト特徴量の次元圧縮が行われることとする。

　ステップＳ１０１において、特徴量抽出部４１（図８）は、コンテンツ記憶部１１に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ１０２に進む。

　ステップＳ１０２では、特徴量抽出部４１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ１０２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、処理は、ステップＳ１０３に進み、特徴量抽出部４１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部４１は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部４１は、アノテーション用系列を、最尤状態系列算出部４２に供給して、処理は、ステップＳ１０３からステップＳ１０５に進む。

　また、ステップＳ１０２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップＳ１０４に進み、特徴量抽出部４１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部４１は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部４１は、例えば、ダミーのデータ（例えば、所定の値のトピックラベル）を、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部４２に供給して、処理は、ステップＳ１０４からステップＳ１０５に進む。

　ステップＳ１０５では、最尤状態系列算出部４２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデル（対象コンテンツのカテゴリに一致するカテゴリの学習用コンテンツを用いて学習が行われたアノテーションモデル）を取得する。

　さらに、最尤状態系列算出部４２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部４１からのアノテーション用系列が観測される最尤状態系列を求め、単語選択部４３に供給して、処理は、ステップＳ１０５からステップＳ１０６に進む。

　ステップＳ１０６では、単語選択部４３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部４２からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック（のトピックラベル）の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。

　すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部４３は、最尤状態系列のt番目の状態において観測される潜在トピック（のトピックラベル）の出力確率分布において、出力確率が高い潜在トピックを、第tフレームのフレームトピックとして選択する。

　ここで、第tフレームのフレームトピックとしては、最尤状態系列のt番目の状態において観測される潜在トピックの出力確率分布において、出力確率が最も高い潜在トピックや、出力確率が上位の複数の潜在トピックを選択することができる。

　対象コンテンツの各フレームのフレームトピックが選択されると、処理は、ステップＳ１０６からステップＳ１０７に進み、単語選択部４３は、トピック対頻出単語テーブル（図２３）に基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピックの頻出単語を、そのフレームに付与するアノテーションとして選択する。

　すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部４３は、トピック対頻出単語テーブルにおいて、注目フレームである第tフレームのフレームトピック（になっている潜在トピック）の頻出単語のうちの、例えば、出現頻度が最も高い頻出単語や、出現頻度が上位の複数の頻出単語を、注目フレームに付与するアノテーションとして選択する。

　なお、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、その複数の潜在トピックのそれぞれの頻出単語から、注目フレームに付与するアノテーション（となる単語）を選択することができる。

　すなわち、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、例えば、第tフレームのフレームトピックになっている複数の潜在トピックのそれぞれの頻出単語のうちの、出現頻度が最も高い頻出単語を、第tフレームに付与するアノテーションとして選択することができる。

　また、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、例えば、第tフレームのフレームトピックになっている潜在トピックの出力確率（最尤状態系列のt番目の状態において観測される、フレームトピックになっている潜在トピックの出力確率）を、その潜在トピックの頻出単語の出現頻度に乗算することにより、出現頻度を補正し、補正後の出現頻度が最も高い単語や、補正後の出現頻度が上位の複数の頻出単語を、第tフレームに付与するアノテーションとして選択することができる。

　単語選択部４３が、対象コンテンツのフレームすべてを、注目フレームとして、注目フレームに付与するアノテーションとしての単語を選択し、これにより、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップＳ１０７からステップＳ１０８に進み、単語選択部４３は、対象コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号（第tフレームのt）とを対応付け、アノテーション単語情報として出力し、アノテーション付与処理は、終了する。

　以上のように、アノテーション付与装置１４において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、注目フレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおいて出現頻度が高い頻出単語を、注目フレームに付与するアノテーションとして選択する場合にも、図９の場合と同様に、対象コンテンツへのアノテーションの付与を、容易に行うことができる。

　［テキスト特徴量について次元圧縮を行う場合のフレーム検索処理］

　図２７は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図１０のフレーム検索装置１５によるフレーム検索処理を説明するフローチャートである。

　また、ステップＳ１２１ないしＳ１２５において、図２６のステップＳ１０１ないしＳ１０５とそれぞれ同様の処理が行われる。

　すなわち、ステップＳ１２１において、特徴量抽出部５１（図１０）は、コンテンツ記憶部１１に記憶されたコンテンツの中から、対象コンテンツを選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ１２２に進む。

　ステップＳ１２２では、特徴量抽出部５１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ１２２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップＳ１２３に進み、特徴量抽出部５１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部５１は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部５１は、アノテーション用系列を、最尤状態系列算出部５２に供給して、処理は、ステップＳ１２３からステップＳ１２５に進む。

　また、ステップＳ１２２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップＳ１２４に進み、特徴量抽出部５１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部５１は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部５１は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部５２に供給して、処理は、ステップＳ１２４からステップＳ１２５に進む。

　ステップＳ１２５では、最尤状態系列算出部５２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。

　さらに、最尤状態系列算出部５２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部５１からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部５３に供給して、処理は、ステップＳ１２５からステップＳ１２６に進む。

　ステップＳ１２６では、キーワード合致度算出部５３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部５２からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック（のトピックラベル）の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。

　すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード度合致度算出部５３は、例えば、最尤状態系列のt番目の状態において観測される潜在トピック（のトピックラベル）の出力確率分布において、出力確率が最も高い潜在トピックを、第tフレームのフレームトピックとして選択する。

　その後、処理は、ステップＳ１２６からステップＳ１２７に進み、キーワード合致度算出部５３は、トピック対頻出単語テーブル（図２３）に基づき、各潜在トピックについて、キーワード供給部５４からの検索クエリに含まれるキーワード（に一致する頻出単語）の出現頻度を求め、その出現頻度をコンポーネントとする頻度ベクトルを求める。

　すなわち、LDAの潜在トピックの数がD個であるとすると、キーワード合致度算出部５３は、トピック対頻出単語テーブルにおいて、D個の潜在トピックのうちの１個目の潜在トピックの頻出単語の中から、キーワードに一致する頻出単語を検出し、その頻出単語の出現頻度を獲得する。

　キーワード合致度算出部５３は、２個目以降の潜在トピックについても、同様にして、キーワードに一致する頻出単語の出現頻度を獲得し、D個の潜在トピックについて獲得した、キーワードに一致する頻出単語の出現頻度をコンポーネントとするD次元の頻度ベクトルを求める。

　したがって、例えば、LDAの潜在トピックの数が10個である場合、例えば、(10,50,0,0,2,0,0,0,4,0)のような10次元のベクトルが、頻度ベクトルとして求められる。

　ここで、頻度ベクトル(10,50,0,0,2,0,0,0,4,0)の、例えば、（左から）３番目のコンポーネントである0は、３個目の潜在トピックの頻出単語のうちの、キーワードに一致する頻出単語の出現頻度が、0であることを表す。

　なお、トピック対頻出単語テーブルにおいて、ある潜在トピックの頻出単語の中に、キーワードに一致する頻出単語が存在しない場合、その潜在トピックについては、キーワードに一致する頻出単語の出現頻度は、0とされる。

　キーワードについて、頻度ベクトルが求められると、処理は、ステップＳ１２７からステップＳ１２８に進み、キーワード合致度算出部５３は、頻度ベクトルに基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピック（になっている潜在トピック）において、キーワード（に一致する頻出単語）が出現する出現頻度を、キーワード合致度として求める。

　すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード合致度算出部５３は、第tフレームのフレームトピックになっている潜在トピックにおいて、キーワードに一致する頻出単語が出現する出現頻度を、第tフレームのキーワード合致度として、頻度ベクトルから獲得する。

　例えば、第tフレームのフレームトピックが、D個の潜在トピックのうちのd番目の潜在トピックである場合には、D次元の頻度ベクトルのd番目（第d次元）のコンポーネントになっている出現頻度が、第tフレームのキーワード合致度として獲得される。

　キーワード合致度算出部５３は、対象コンテンツのフレームのすべてについて、キーワード合致度を求めると、そのキーワード合致度を、フレーム選択部５５に供給して、処理は、ステップＳ１２８からステップＳ１２９に進む。

　ステップＳ１２９では、フレーム選択部５５は、コンテンツ記憶部１１から、対象コンテンツを取得し、キーワード合致度選択部５３からのキーワード合致度に基づいて、対象コンテンツから、キーワード（検索クエリ）に合致するキーワードフレームを選択する。

　すなわち、フレーム選択部５５は、例えば、図１１の場合と同様に、対象コンテンツから、キーワード合致度選択部５３からのキーワード合致度が検索閾値より高いフレームを、キーワードフレームとして選択し、そのキーワードフレームの時系列順の並びを、キーワードダイジェストとして出力して、フレーム検索処理を終了する。

　以上のように、フレーム検索装置１５において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、注目フレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおけるキーワードの出現頻度を求め、キーワードの出現頻度が高い注目フレームを、キーワードフレームとして選択する場合にも、図１１の場合と同様に、キーワードフレームだけのキーワードダイジェストを再生するという、アノテーションモデルを利用したアプリケーションを提供することができる。

　［テキスト特徴量について次元圧縮を行う場合の表示制御処理］

　図２８は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図１５の表示制御装置１６によるモデルマップの表示制御処理を説明するフローチャートである。

　ステップＳ１４１ないしＳ１４５において、表示制御装置１６では、図２６のステップＳ１０１ないしＳ１０５とそれぞれ同様の処理が行われる。

　すなわち、ステップＳ１４１において、特徴量抽出部６１（図１５）は、コンテンツ記憶部１１に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ１４２に進む。

　ステップＳ１４２では、特徴量抽出部６１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ１４２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップＳ１４３に進み、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部６１は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部６１は、アノテーション用系列を、最尤状態系列算出部６２に供給して、処理は、ステップＳ１４３からステップＳ１４５に進む。

　また、ステップＳ１４２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップＳ１４４に進み、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部６１は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部６１は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部６２に供給して、処理は、ステップＳ１４４からステップＳ１４５に進む。

　ステップＳ１４５では、最尤状態系列算出部６２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。

　さらに、最尤状態系列算出部６２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部６１からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部６３に供給して、処理は、ステップＳ１４５からステップＳ１４６に進む。　

　ステップＳ１４６では、表示制御部６３は、図２０のステップＳ５６と同様に、コンテンツ記憶部１１から対象コンテンツを取得する。さらに、表示制御部６３は、図２０のステップＳ５６と同様に、アノテーションモデル記憶部１３に記憶されたアノテーションモデルの各状態について、その状態に対応する、対象コンテンツのフレームを用いて、状態（に対応するフレーム）の代表画像を生成し、処理は、ステップＳ１４６からステップＳ１４７に進む。

　ステップＳ１４７では、表示制御部６３は、アノテーションモデルとトピック対頻出単語テーブルとを用いて、図２６のステップＳ１０６及びＳ１０７と同様の処理を行い、対象コンテンツの各フレームに付与するアノテーション（となる単語）として選択し、対象コンテンツの各フレームに、アノテーションを付与する。

　すなわち、表示制御部６３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部６２からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック（のトピックラベル）の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。

　さらに、表示制御部６３は、トピック対頻出単語テーブル（図２３）に基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピックの頻出単語を、そのフレームに付与するアノテーションとして選択する。

　その後、処理は、ステップＳ１４７からステップＳ１４８に進み、表示制御部６３は、図２０のステップＳ５８と同様に、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（対象コンテンツについて、最尤状態系列を求めるのに用いられたアノテーションモデル）を用い、モデルマップ（図１６、図１７）を生成して、処理は、ステップＳ１４９に進む。

　ステップＳ１４９では、表示制御部６３は、図２０のステップＳ５９と同様に、モデルマップを、ディスプレイに表示させ、さらに、モデルマップ上の各状態に、その状態の代表画像とアノテーションとを表示させ、処理は、ステップＳ１５０に進む。

　ステップＳ１５０では、表示制御部６３は、図２０のステップＳ６０と同様に、対象コンテンツの再生制御を行う。

　以上のように、表示制御装置１６において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求めることにより、対象コンテンツの各フレームに対応する状態を求め、その状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおいて出現頻度が高い単語を、そのフレームトピックが内容を表すフレームに付与するアノテーションとして求め、アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる場合にも、図２０の場合と同様に、ユーザは、対象コンテンツに付与されたアノテーションを、一覧することができ、また、アノテーションが表示されるモデルマップ上の状態が指定されると、その状態に対応するフレームの再生を開始するというような、アノテーションを利用したアプリケーションを提供することができる。

　ところで、上述のように、LDAのパラメータ（テキスト用基底空間の基底空間データ）を用いて、テキスト特徴量の次元圧縮を行い、その次元圧縮後のテキスト特徴量であるトピックラベルを含むアノテーション用系列を用いて学習を行うことにより得られるアノテーションモデルによれば、表示制御装置１６において、いわば、LDAの潜在トピックを媒介として、アノテーション（となる頻出単語）が、対象コンテンツ（の各フレーム）に付与される。

　このように、潜在トピックを媒介として、アノテーションが対象コンテンツに付与される場合には、対象コンテンツに付与されたアノテーションは、上述したようなモデルマップ（図１６、図１７）を用いた表示形式等によって、アノテーションモデルの状態ごとに表示する他、潜在トピックごとに表示することができる。

　図２９は、対象コンテンツに付与されたアノテーションを、潜在トピックごとに表示した表示例を示す図である。

　すなわち、図２９は、LDAの潜在トピックに対応する矩形のトピック欄が、２次元の表形式に並んだトピックリストの例を示している。

　トピックリストには、LDAの潜在トピックの数に等しい数のトピック欄が格子状に配置され、各トピック欄には、１つの潜在トピックが対応付けられる。

　そして、トピック欄には、そのトピック欄に対応する潜在トピック（トピック欄に対応付けられた潜在トピック）の頻出単語が、例えば、出現頻度の高い順に並べて表示される。

　なお、図２９では、トピック欄に表示される頻出単語は、トピック欄の大きさの都合で、所定の文字数としての20文字に制限されている。

　また、トピックリストの、あるトピック欄に注目すると、注目する注目トピック欄に、頻出単語が表示されるのは、その注目トピック欄に対応する潜在トピックをフレームトピックとするフレームが、対象コンテンツに存在する場合である。

　したがって、対象コンテンツのいずれのフレームのフレームトピックにも選択されなかった潜在トピックに対応するトピック欄には、頻出単語は表示されない。

　図２９では、例えば、左上や右上等のトピック欄に、頻出単語が表示されていないが、このように、頻出単語が表示されていない左上や右上等のトピック欄は、そのトピック欄に対応する潜在トピックをフレームトピックとするフレームが、対象コンテンツに存在しなかったことを表す。

　図３０は、図１５の表示制御装置１６によるトピックリストの表示制御処理を説明するフローチャートである。

　ステップＳ１７１ないしＳ１７６において、表示制御装置１６では、図２６のステップＳ１０１ないしＳ１０６とそれぞれ同様の処理が行われる。

　すなわち、ステップＳ１７１において、特徴量抽出部６１（図１５）は、コンテンツ記憶部１１に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部１１から取得して、処理は、ステップＳ１７２に進む。

　ステップＳ１７２では、特徴量抽出部６１は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。

　ステップＳ１７２において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップＳ１７３に進み、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。

　さらに、特徴量抽出部６１は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部６１は、アノテーション用系列を、最尤状態系列算出部６２に供給して、処理は、ステップＳ１７３からステップＳ１７５に進む。

　また、ステップＳ１７２において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップＳ１７４に進み、特徴量抽出部６１は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。

　さらに、特徴量抽出部６１は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部６１は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部６２に供給して、処理は、ステップＳ１７４からステップＳ１７５に進む。

　ステップＳ１７５では、最尤状態系列算出部６２は、アノテーションモデル記憶部１３に記憶されたアノテーションモデル（マルチストリームHMM）の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。

　さらに、最尤状態系列算出部６２は、アノテーションモデル記憶部１３から取得したアノテーションモデルにおいて、特徴量抽出部６１からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部６３に供給して、処理は、ステップＳ１７５からステップＳ１７６に進む。

　ステップＳ１７６では、表示制御部６３は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部６２からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック（のトピックラベル）の出力確率分布に基づいて、出力確率が最も高い潜在トピックを、フレームトピックとして選択し、処理は、ステップＳ１７７に進む。　

　ステップＳ１７７では、表示制御部６３は、LDAの各潜在トピックに対応するトピック欄を有するトピックリスト（図２９）を生成し、処理は、ステップＳ１７８に進む。

　ステップＳ１７８では、表示制御部６３は、トピックリストの各トピック欄に、そのトピック欄に対応する潜在トピックをフレームトピックとする、対象コンテンツのフレームを対応付け、処理は、ステップＳ１７９に進む。

　ステップＳ１７９では、表示制御部６３は、トピック対頻出単語テーブル（図２３）に基づき、トピック欄に対応する潜在トピックの頻出単語を、そのトピック欄に対応付けられたフレームに付与するアノテーションとして選択し、そのトピック欄に配置する。

　その後、処理は、ステップＳ１７９からステップＳ１８０に進み、表示制御部６３は、トピックリストを、ディスプレイに表示させ、処理は、ステップＳ１８１に進む。

　ステップＳ１８１では、表示制御部６３は、対象コンテンツの再生制御を行う。

　すなわち、表示制御部６３は、例えば、ユーザにより、トピックリスト上のトピック欄が指定されると、そのトピック欄に対応付けられているフレームの再生を開始させる。

　したがって、ユーザは、トピック欄に表示されたアノテーションとしての単語を見て、そのトピック欄に対応付けられているフレームの内容の概要を把握し、興味があれば、トピック欄を指定することにより、そのトピック欄に対応付けられたフレームの再生を行わせることができる。

　なお、表示制御装置１６において、対象コンテンツに付与されたアノテーションの表示形式は、ユーザの操作等に従って切り替えることが可能である。

　すなわち、表示制御装置１６では、例えば、モデルマップと、トピックリストとの両方を作成し、アノテーションの表示形式を、モデルマップを用いた表示形式と、トピックリストを用いた表示形式との間で、相互に切り替えることができる。

　図３１及び図３２は、アノテーションの表示形式の切り替えを説明する図である。

　すなわち、図３１は、トピックリストを用いたアノテーションの表示形式の例を示す図である。

　ユーザは、トピックリストのトピック欄に表示されたアノテーションとしての単語を見て、そのトピック欄に対応付けられているフレームの内容の概要を把握し、興味を持った場合には、そのトピック欄を指定することにより、そのトピック欄に対応する潜在トピックを、興味がある興味トピックとして選択することができる。

　表示制御装置１６は、ユーザによって、興味トピックが選択された場合、興味トピックに選択された潜在トピックに対応するトピック欄（以下、興味トピック欄ともいう）を、強調して表示させることができる。

　図３１では、興味トピック欄（となったトピック欄）が、その興味トピック欄に配置されたアノテーションとしての単語に、太線によるアンダーラインが表示されることにより強調されている。

　なお、興味トピック欄の強調の方法は、アンダーラインを表示する方法に限定されるものではない。すなわち、興味トピック欄は、他のトピック欄とは異なる特定の色（例えば、赤等）で表示すること等によって、強調することが可能である。

　また、図３１では（図２９でも同様）、トピックリストのトピック欄には、アノテーションとしての単語だけを表示することとしたが、トピック欄には、その他、例えば、そのトピック欄に対応付けられたフレームを代表する代表画像を生成して表示することができる。

　図３２は、モデルマップを用いたアノテーションの表示形式の例を示す図である。

　すなわち、図３２は、図３１のトピックリストの表示から切り替えられたモデルマップ（の表示）を示している。

　モデルマップでは、図１８及び図１９で説明したように、アノテーションモデルの状態の中で、対応するフレーム（対象コンテンツのフレーム）が存在する状態だけが、矩形で表示される。そして、対応するフレームが存在する状態を表す矩形には、その状態に対応するフレームの代表画像が表示され、さらに、下部には、その状態に対応するフレームに付与されたアノテーションとしての単語が表示される。

　そして、現在再生されているフレーム（再生フレーム）に対応する状態については、代表画像に代えて、再生フレームの画像が、代表画像より大きく表示され、アノテーションも、他の状態より大きく表示される。

　表示制御装置１６では、トピックリストの表示から切り替えられたモデルマップについては、トピックリストの興味トピック欄に対応付けられたフレームに対応する状態（を表す矩形や、その矩形内の代表画像、アノテーション等）を、強調して表示することができる。

　ここで、図３２では、モデルマップ上の、興味トピック欄に対応付けられたフレームに対応する状態が、その状態を表す矩形の下部に、太線が表示されることにより強調されている。

　以上のように、トピックリストの表示から切り替えられたモデルマップにおいて、トピックリストの興味トピック欄に対応付けられたフレームに対応する状態を、強調して表示することにより、ユーザは、トピックリストにおいて、興味トピック欄とするトピック欄を選択した後に、モデルマップに切り替えることで、モデルマップ上で、興味トピックに対応付けられたフレーム、つまり、ユーザが興味を持っている内容のフレームに対応する状態を、一目で認識することができる。

　なお、モデルマップにおいて、ユーザによって、ある状態が選択された場合には、表示制御装置１６では、ユーザによって選択された状態である選択状態に対応するフレームのフレームトピックと一致するフレームトピックのフレームに対応する他の状態を検出し、選択状態とともに、強調して表示することができる。

　［特徴量抽出部２１の第４の構成例］

　図３３は、図２の特徴量抽出部２１の第４の構成例を示すブロック図である。

　なお、図３３において、図２１、又は、図２２の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

　図３３の特徴量抽出部２１は、画像取得部３１、画像特徴量抽出部１０１、説明テキスト取得部３３、テキスト特徴量抽出部３４、同期部３５、音声取得部１０２、及び、音声特徴量抽出部１０３を有する点で、図２１の場合と共通する。

　さらに、図３３の特徴量抽出部２１は、基底空間学習部１５１、基底空間データ記憶部１５２、次元圧縮部１５３、基底空間学習部１６１、基底空間データ記憶部１６２、及び、次元圧縮部１５３を有する点で、図２２の場合と共通する。

　そして、図３３の特徴量抽出部２１は、基底空間学習部２０１、基底空間データ記憶部２０２、次元圧縮部２０３、基底空間学習部２１１、基底空間データ記憶部２１２、次元圧縮部２１３、基底空間学習部２２１、基底空間データ記憶部２２２、及び、次元圧縮部２２３が、新たに設けられている点で、図２１及び図２２の場合と相違する。

　基底空間学習部２０１には、画像特徴量抽出部１０１から、学習用コンテンツの第２画像特徴量が供給される。

　基底空間学習部２０１は、例えば、基底空間学習部１５１と同様に、第２画像特徴量を写像するための、第２画像特徴量の次元より小さい次元の画像用基底空間の基底空間データとしてのコードブック等を、画像特徴量抽出部１０１からの第２画像特徴量を用いて求め、基底空間データ記憶部２０２に供給する。

　基底空間データ記憶部２０２は、基底空間学習部２０１からの基底空間データを記憶する。

　次元圧縮部２０３には、画像特徴量抽出部１０１から、学習用コンテンツの第２画像特徴量が供給される。

　次元圧縮部２０３は、例えば、次元圧縮部１５３と同様に、基底空間データ記憶部２０２に記憶された基底空間データに基づき、画像特徴量抽出部１０１からの第２画像特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の第２画像特徴量を、同期部３５に供給する。

　基底空間学習部２１１には、画像特徴量抽出部１０１から、学習用コンテンツの第３画像特徴量が供給される。

　基底空間学習部２１１は、例えば、基底空間学習部１５１と同様に、第３画像特徴量を写像するための、第３画像特徴量の次元より小さい次元の画像用基底空間の基底空間データとしてのコードブック等を、画像特徴量抽出部１０１からの第３画像特徴量を用いて求め、基底空間データ記憶部２１２に供給する。

　基底空間データ記憶部２１２は、基底空間学習部２１１からの基底空間データを記憶する。

　次元圧縮部２１３には、画像特徴量抽出部１０１から、学習用コンテンツの第３画像特徴量が供給される。

　次元圧縮部２１３は、例えば、次元圧縮部１５３と同様に、基底空間データ記憶部２１２に記憶された基底空間データに基づき、画像特徴量抽出部１０１からの第３画像特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の第３画像特徴量を、同期部３５に供給する。

　基底空間学習部２２１には、音声特徴量抽出部１０３から、学習用コンテンツの音声特徴量が供給される。

　基底空間学習部２２１は、例えば、基底空間学習部１５１と同様に、音声特徴量を写像するための、音声特徴量の次元より小さい次元の音声用基底空間の基底空間データとしてのコードブック等を、音声特徴量抽出部１０３からの音声特徴量を用いて求め、基底空間データ記憶部２２２に供給する。

　基底空間データ記憶部２２２は、基底空間学習部２２１からの基底空間データを記憶する。

　次元圧縮部２２３には、音声特徴量抽出部１０３から、学習用コンテンツの音声特徴量が供給される。

　次元圧縮部２２３は、例えば、次元圧縮部１５３と同様に、基底空間データ記憶部２２２に記憶された基底空間データに基づき、音声特徴量抽出部１０３からの音声特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の音声特徴量を、同期部３５に供給する。

　図２１では、第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量を、そのまま用いて、アノテーション用系列が構成されるが、図３３では、第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量の次元圧縮が行われ、その次元圧縮後の第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量から、アノテーション用系列が構成され、アノテーションモデルの学習に用いられる。

　図３４は、学習装置１２の特徴量抽出部２１が図３３に示したように構成される場合の、図８のアノテーション付与装置１４の特徴量抽出部４１（フレーム検索装置１５の特徴量抽出部５１（図１０）、及び、表示制御装置１６の特徴量抽出部６１（図１５））の構成例を示すブロック図である。

　図３４において、アノテーション付与装置１４（図８）の特徴量抽出部４１は、画像取得部１７１、画像特徴量抽出部１７２、基底空間データ記憶部１７３、次元圧縮部１７４、説明テキスト取得部１８１、テキスト特徴量抽出部１８２、基底空間データ記憶部１８３、次元圧縮部１８４、同期部１９１、基底空間データ記憶部２６１、次元圧縮部２６２、基底空間データ記憶部２７１、次元圧縮部２７２、音声取得部２８１、音声特徴量抽出部２８２、基底空間データ記憶部２８３、及び、次元圧縮部２８４を有する。

　さらに、画像特徴量抽出部１７２は、第１画像特徴量抽出部１７２_１、第２画像特徴量抽出部１７２_２、及び、第３画像特徴量抽出部１７２_３を有する。

　図３４の特徴量抽出部４１において、基底空間データ記憶部１７３は、図３３の基底空間学習部１５１で求められた基底空間データを、基底空間データ記憶部１８３は、図３３の基底空間学習部１６１で求められた基底空間データを、基底空間データ記憶部２６１は、図３３の基底空間学習部２０１で求められた基底空間データを、基底空間データ記憶部２７１は、図３３の基底空間学習部２１１で求められた基底空間データを、基底空間データ記憶部２８３は、図３３の基底空間学習部２２１で求められた基底空間データを、それぞれ記憶する。

　そして、画像取得部１７１、第１画像特徴量抽出部１７２_１、第２画像特徴量抽出部１７２_２、第３画像特徴量抽出部１７２_３、次元圧縮部１７４、説明テキスト取得部１８１、テキスト特徴量抽出部１８２、次元圧縮部１８４、同期部１９１、次元圧縮部２６２、次元圧縮部２７２、音声取得部２８１、音声特徴量抽出部２８２、及び、次元圧縮部２８４において、対象コンテンツについて、図３３の画像取得部３１、第１画像特徴量抽出部１０２_１、第２画像特徴量抽出部１０２_２、第３画像特徴量抽出部１０２_３、次元圧縮部１５３、説明テキスト取得部３３、テキスト特徴量抽出部３４、次元圧縮部１６３、同期部３５、次元圧縮部２０３、次元圧縮部２１３、音声取得部１０２、音声特徴量抽出部１０３、及び、次元圧縮部２２３とそれぞれ同様の処理が行われ、これにより、次元圧縮後の第１画像特徴量ないし第３画像特徴量、音声特徴量、及び、テキスト特徴量を含むアノテーション用系列が構成される。

　但し、説明テキストを取得することができない対象コンテンツについては、次元圧縮後のテキスト特徴量としてのトピックラベルとして、ダミーのデータを用いて、アノテーション用系列が構成される。

　＜第２実施の形態＞　

　［本発明の情報処理装置を適用したレコーダの他の一実施の形態］

　図３５は、本発明の情報処理装置を適用したレコーダの他の一実施の形態の構成例を示すブロック図である。

　図３５のレコーダ（以下、ブラウジングレコーダともいう）は、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画（記録）（記憶）することができる。

　すなわち、図３５において、ブラウジングレコーダは、操作部３０１、制御部３０２、コンテンツ取得部３１０、コンテンツ記憶部３１１、学習装置３１２、アノテーションモデル記憶部３１３、及び、ブラウジング制御装置３１４を有する。

　操作部３０１は、図３５のブラウジングレコーダの筐体に設けられたボタンや、ブラウジングレコーダを遠隔制御するリモートコマンダ等であり、ユーザによって操作され、その操作に対応した操作信号を、制御部３０２に供給する。

　制御部３０２は、操作部３０１の操作等に応じて、コンテンツ取得部３１０ないしブラウジング制御部３１４を制御する。

　コンテンツ取得部３１０は、テレビジョン放送の番組等の画像を含むコンテンツを取得し、コンテンツ記憶部３１１に供給する。

　すなわち、コンテンツ取得部３１０は、例えば、チューナや、STB(Set Top Box)、NIC(Network Interface Card)等のネットワークI/F(Inter face)で構成することができ、この場合、コンテンツを、地上ディジタル放送、衛星ディジタル放送、CATV網、インターネットその他のネットワーク等の、図示せぬ伝送媒体を介して取得する。

　また、コンテンツ取得部３１０は、例えば、記録媒体を駆動するドライブ等で構成することができ、この場合、コンテンツを、例えば、ビデオカメラが内蔵するハードディスクや、ビデオカメラから取り外されたメモリカード等の半導体メモリ、テープ状記録媒体、ディスク状記録媒体等の記録媒体から取得する。

　なお、以下では、説明を簡単にするため、コンテンツ取得部３１０は、テレビジョン放送の番組（放送番組）を受信するチューナで構成されることとする。

　コンテンツ記憶部３１１は、コンテンツ取得部３１０からのコンテンツを記憶（記録）する。コンテンツ記憶部３１１へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ（コンテンツ記憶部３１１に記憶されたコンテンツ）は、例えば、ユーザによる操作部３０１の操作に応じて再生される。

　学習装置３１２は、図１の学習装置１２と同様に構成され、コンテンツ記憶部３１１に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造（時空間構造）を表すモデルを求める学習（統計学習）を行う。

　すなわち、学習装置３１２は、コンテンツ記憶部３１１に記憶されたコンテンツのうちの、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、アノテーションモデルの学習に用いる学習用コンテンツに選択する。

　さらに、学習装置３１２は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、その学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。

　そして、学習装置３１２は、学習用コンテンツから抽出した画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を構成し、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。　

　学習装置３１２は、アノテーションモデルの学習を行うと、その学習後のアノテーションモデルを、アノテーションモデル記憶部３１３に供給する。

　アノテーションモデル記憶部３１３は、学習装置３１２から供給されるアノテーションモデルを記憶する。

　ブラウジング制御装置３１４は、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用いて、コンテンツ記憶部３１１に記憶されたコンテンツのうちの、シーンを抽出する対象の対象コンテンツから、時間的に連続する１フレーム以上のフレームの集まりであるシーンを抽出し、そのシーンの代表画像を、表示時刻（再生時刻）順に並べて表示させる。

　すなわち、ブラウジング制御装置３１４は、ユーザが、対象コンテンツの内容を迅速に把握することができるように、対象コンテンツを、シーンに分けて、各シーンを構成するフレームの代表画像と、アノテーションとを、表示時刻順に表示させる。

　また、ブラウジング制御装置３１４は、対象コンテンツの中から、ユーザが興味を持っているシーンを迅速に探し出すことができるように、対象コンテンツから、ユーザが操作部３０１を操作することにより入力したキーワードに内容が合致するフレーム（キーワードフレーム）を有するシーンを検出し、各シーンを構成するフレームの代表画像を、表示時刻順に表示させる。

　［ブラウジングレコーダが行う処理の概要］

　図３６ないし図３９は、図３５のブラウジングレコーダが行う処理の概要を説明する図である。

　ここで、番組の中には、複数のコーナから構成される番組がある。例えば、テレビジョン放送のニュース番組は、経済ニュースや、社会ニュース、スポーツニュース等の複数のニューストピックのコーナ（シーン）から構成される。

　かかるニュース番組については、例えば、レコーダにおいて、EPG(Electronic Program Guide)のデータを取得することにより、放送開始時刻や、放送終了時刻、出演者、番組の内容の概要を提示する（表示させる）ことができる。

　しかしながら、レコーダにおいて、EPGのデータを用いて、例えば、ある日のあるチャンネル（放送局）のニュース番組において、どのようなニューストピックが何時何分から取り上げられているかを提示することはできない。

　また、レコーダによれば、レコーダに組み込まれたブラウザにおいて、EPG上に、番組が録画済みかどうかを表示し、EPG上の、録画済みの番組が指定されたときに、その録画済みの番組の再生を、番組の先頭から開始する、いわゆる頭出しを行うことができる。

　しかしながら、レコーダにおいて、録画済みの番組の所定のコーナの頭出しを行うことはできない。

　以上のように、レコーダは、番組を、いわば、番組単位で扱い、コーナ単位では扱わないので、番組"全体"の概要の表示や、番組の頭出しは、行うことができるが、番組のコーナごとの概要の表示や、コーナの頭出しは、行うことができない。

　ところで、番組を、コーナ等の、内容的にまとまったシーンに区切り、そのシーンごとに、シーンの概要を認識することができるような番組のブラウジング（以下、シーンブラウジングともいう）の仕方を、ユーザに提供することができれば便利である。

　レコーダにおいて、前述の、有料サービスである番組メタデータサービスで配信される、番組のコーナごとの開始時刻、終了時刻、出演者、及び、コーナの内容の要約等のメタデータを処理することにより、ユーザがシーンブラウジングを行うことが可能になると考えられるが、そのようなレコーダは提案されていない。

　また、レコーダにおいて、録画済みの番組について、ユーザが所望するコーナの頭出しを行う方法として、ユーザに、所望するコーナの内容を表現する単語を、キーワードとして入力してもらい、録画済みの番組から、ユーザが入力したキーワードを含む字幕が表示されるフレームを検出し、そのフレームから再生を開始する方法が考えられる。

　しかしながら、録画済みの番組から、ユーザが入力したキーワードを含む字幕が表示されるフレームを検出する方法は、字幕がない番組には、適用することができない。さらに、ユーザが所望するコーナに字幕が表示されても、その字幕に、ユーザが入力したキーワードが含まれなければ、ユーザが所望するコーナ（のフレーム）は、検出されない。

　また、レコーダにおいて、録画済みの番組の音声から、ユーザが入力したキーワードを検出し、そのキーワードを含む音声が発話されているフレームから、再生を開始することで、ユーザが所望するコーナの頭出しを行う方法が考えられる。

　しかしながら、録画済みの番組の音声から、ユーザが入力したキーワードを検索する方法では、やはり、ユーザが所望するコーナの音声に、ユーザが入力したキーワードが発話されていなければ、ユーザが所望するコーナ（のフレーム）は、検出されない。

　図３５のブラウジングレコーダでは、上述したアノテーションモデルを用いて、シーンを抽出する対象の対象コンテンツから、時間的に連続する１フレーム以上のフレームの集まりであるシーンを抽出し、そのシーンの代表画像を、時刻順に並べて表示させることで、ユーザが、コンテンツを構成するシーンの概要を容易に認識することができるシーンブラウジングを行うことを可能とする。

　すなわち、ブラウジングレコーダでは、アノテーションモデルの学習、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出、及び、シーンの代表画像を、時刻順に並べて表示させる表示制御が行われる。

　図３６は、図３５のブラウジングレコーダによるアノテーションモデルの学習の概要を説明する図である。

　ブラウジングレコーダでは、制御部３０２が、シーンブラウジングを行うコンテンツのジャンルを、ブラウジングジャンルに設定する。

　ここで、制御部３０２は、例えば、ユーザによる操作部３０１の操作に従って、ブラウジングジャンルの設定を行う。ここでは、例えば、ジャンルとしてのニュースが、ブラウジングジャンルに設定されたこととする。

　ブラウジングレコーダでは、コンテンツ取得部３１０が、例えば、EPGのデータから、各番組のジャンルを認識し、ジャンルがブラウジングジャンルであるニュースに一致する番組を録画する。すなわち、これにより、ジャンルがブラウジングジャンルに一致するニュース番組が、コンテンツ記憶部３１１に記憶される。

　そして、ブラウジングレコーダでは、学習装置３１２が、コンテンツ記憶部３１１に記憶された、過去の一定期間に（放送されて）録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致し、かつ、字幕のテキストを含む録画番組を、アノテーションモデルの学習に用いる学習用コンテンツとして読み出し、その学習用コンテンツを用いて、マルチストリームHMMであるアノテーションモデルの学習（コンテンツ構造学習）を、図１の学習装置１２と同様にして行う。

　そして、学習装置３１２は、学習後のアノテーションモデルを、アノテーションモデル記憶部３１３に供給して記憶させる。

　図３７は、図３５のブラウジングレコーダによる、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出の概要を説明する図である。

　ブラウジングレコーダでは、ブラウジング制御装置３１４が、コンテンツ記憶部３１１に記憶された、過去の一定期間に（放送されて）録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致する録画番組を、字幕のテキストの有無に関係なく、対象コンテンツとして読み出し、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用いて、対象コンテンツに、アノテーションを付与するアノテーション付与処理を、図１のアノテーション付与装置１４と同様にして行う。

　すなわち、ブラウジング制御装置３１４は、対象コンテンツについて、アノテーション用系列を構成し、アノテーションモデル記憶部３１３に記憶されたアノテーションモデル（マルチストリームHMM）において、対象コンテンツのアノテーション用系列が観測される最尤状態系列を求める（状態認識を行う）。

　さらに、ブラウジング制御装置３１４は、対象コンテンツのアノテーション用系列が観測される最尤状態系列に基づいて、対象コンテンツの各フレーム（各時刻）に、アノテーション（となる単語）を付与する。

　そして、ブラウジング制御装置３１４は、対象コンテンツから、同一のアノテーションが付与されている、時間的に連続する１フレーム以上のフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツを、シーンに区分する。

　ここで、ある注目フレームと同一のアノテーションが付与されているフレームには、アノテーションとして付与されている単語すべてが注目フレームと一致するフレームの他、アノテーションとして付与されている単語のうちの一部の単語が注目フレームと一致するフレームを含めることができる。

　図３８は、図３５のブラウジングレコーダによる、シーンの代表画像を、表示時刻順に並べて表示させる表示制御の概要を説明する図である。

　ブラウジングレコーダにおいて、ブラウジング制御装置３１４は、対象コンテンツのすべてを、シーンに区分すると、各対象コンテンツについて、シーンの代表画像を、表示時刻順に並べて表示させる。

　すなわち、ブラウジング制御装置３１４は、対象コンテンツの各シーンについて、例えば、そのシーンの最初のフレームのサムネイルを、代表画像として生成し、対象コンテンツの各シーンの代表画像を、表示時刻順に、例えば、上から下方向（縦方向）等の一方向に並べた画像（以下、時刻順概要表示画像ともいう）を生成する。

　そして、ブラウジング制御装置３１４は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を表示させる。

　ここで、ブラウジング制御装置３１４では、時刻順概要表示画像の各シーンの代表画像の縦方向（時刻方向）の長さは、そのシーンの時間（そのシーンを構成するフレーム数）に比例させることができる。

　また、ブラウジング制御装置３１４では、時刻順概要表示画像の各シーンの代表画像については、例えば、図３８に示すように、吹き出しの形等で、シーンを構成するフレームに付与されたアノテーションとしての単語を表示させることができる。

　さらに、ブラウジング制御装置３１４では、アノテーションとしての単語と、対象コンテンツとしてのニュース番組において、その単語が使用されるときのニュースのジャンル（以下、メタジャンルともいう）とを対応付けたメタジャンル辞書を用意しておき、時刻順概要表示画像の各シーンの代表画像については、アノテーションとともに、又は、アノテーションに代えて、メタジャンルを表示させることができる。

　以上のように、ブラウジング制御装置３１４によれば、ブラウジングジャンルの番組、すなわち、ここでは、ニュース番組について、時刻順概要表示画像が、その時刻順概要表示画像の各シーン（を構成するフレーム）に付与されたアノテーションとともに、EPG上に表示される。

　したがって、ユーザは、時刻順概要表示画像とアノテーションを見て、過去の一定期間に録画されたニューズ番組を構成するシーンの概要を、容易に認識することができる。

　また、ブラウジング制御装置３１４では、対象コンテンツから、同一のアノテーションが付与されている、時間的に連続する１フレーム以上のフレームの集まりを、シーンとして抽出することにより、対象コンテンツを、シーンに区分するので、シーンは、対象コンテンツであるニュース番組の、例えば、経済ニュースや、社会ニュース、スポーツニュース等のコーナに一致している蓋然性が高い。

　したがって、EPG上に表示された、ニュース番組の時刻順概要表示画像によれば、ユーザは、各ニュース番組が、どのようなコーナで構成されているかを、一見して（いわゆる、パッと見で）把握することができる。

　さらに、ユーザは、例えば、スポーツニュースに興味がある場合に、ニュース番組の中で、スポーツニュースのコーナが、そのくらいの時刻から、どのくらいの時間だけ放送されているのかを把握することができる。

　なお、ブラウジング制御装置３１４では、対象コンテンツを、シーンに区分するときに、例えば、対象コンテンツの先頭（のフレーム）を基準とする各シーンの開始時刻と終了時刻とを検出することができる。

　この場合、ブラウジング制御装置３１４では、EPG上に表示された、ニュース番組の時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部３０１の操作によって指定されたときに、そのシーンを、開始時刻から再生することができる。すなわち、ニュース番組の、あるコーナ（シーン）の頭出しを行うことができる。

　また、ブラウジング制御装置３１４では、ニュース番組の時刻順概要表示画像として、ニュース番組のすべてのシーン（コーナ）の代表画像を並べた画像の他、ニュース番組のシーン（コーナ）のうちの、ユーザが操作部３０１を操作することにより入力したキーワードによって内容が表現されるコーナの代表画像を並べた画像を生成し、EPG上に表示させることができる。

　すなわち、図３９は、ユーザが入力したキーワードによって内容が表現されるコーナ（シーン）のみの代表画像を、表示時刻順に並べた時刻順概要表示画像を表示させる表示制御の概要を説明する図である。

　ユーザは、操作部３０１を操作することにより、キーワードを含む検索クエリを入力することができる。

　ここで、検索クエリには、キーワードの他、図１２ないし図１４で説明したようなAND検索式やOR検索式を含めることができる。

　図３５のブラウジングレコーダでは、ブラウジング制御装置３１４が、コンテンツ記憶部３１１に記憶された、過去の一定期間に録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致する録画番組を、対象コンテンツとして読み出し、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用いて、対象コンテンツから、ユーザが入力した検索クエリに含まれるキーワードに内容が合致するフレームであるキーワードフレームを検索するフレーム検索処理を、図１のフレーム検索装置１５と同様にして行う。

　そして、ブラウジング制御装置３１４は、対象コンテンツから検索したキーワードフレームから、時間的に連続する１フレーム以上のキーワードフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツのキーワードフレームを、シーンに区分する。

　すなわち、ブラウジング制御装置３１４は、対象コンテンツのキーワードフレームのうちの、最初のキーワードフレームを注目フレームに選択し、注目フレームを、１番目のシーンを構成するフレームとして、１番目のシーンに含める。

　さらに、ブラウジング制御装置３１４は、対象コンテンツのキーワードフレームのうちの、次のキーワードフレームを新たな注目フレームに選択し、注目フレームが、直前に注目フレームであったキーワードフレーム（以下、直前フレームともいう）と表示時刻が連続しているキーワードフレームである場合、つまり、対象コンテンツにおいて、注目フレームが、直前フレームの次のフレームである場合、注目フレームを、１番目のシーンを構成するフレームとして、１番目のシーンに含める。

　その後、ブラウジング制御装置３１４は、対象コンテンツのキーワードフレームのうちの、次のキーワードフレームを新たな注目フレームに選択し、注目フレームが、直前フレームと表示時刻が連続しているキーワードフレームである間は、注目フレームを、１番目のシーンを構成するフレームとして、１番目のシーンに含めることを繰り返す。

　一方、注目フレームが、直前フレームと表示時刻が連続していないキーワードフレームである場合、つまり、対象コンテンツにおいて、注目フレームが、直前フレームの次の次のフレーム以降のフレームである場合、ブラウジング制御装置３１４は、注目フレームを、新たなシーンとしての２番目のシーンを構成するフレームとして、２番目のシーンに含める。

　以下、同様にして、ブラウジング制御装置３１４は、対象コンテンツのキーワードフレームを、１以上のシーンに区分する。

　その後、ブラウジング制御装置３１４は、各対象コンテンツについて、シーンの代表画像を、表示時刻順に並べて表示させる。

　すなわち、ブラウジング制御装置３１４は、対象コンテンツのキーワードフレームから構成される各シーンについて、例えば、そのシーンの最初のフレームのサムネイルを、代表画像として生成し、対象コンテンツの各シーンの代表画像を、表示時刻順に、例えば、上から下方向等の一方向に並べた時刻順概要表示画像を生成する。

　ここで、ブラウジング制御装置３１４では、図３８の場合と同様に、時刻順概要表示画像の各シーンの代表画像の縦方向の長さは、そのシーンの時間に比例させることができる。さらに、図３８の場合と同様に、時刻順概要表示画像の各シーンの代表画像については、シーンを構成するフレームに付与されるアノテーションとしての単語や、メタジャンルを表示させることができる。

　［ブラウジング制御装置３１４の構成例］

　図４０は、図３５のブラウジング制御装置３１４の構成例を示すブロック図である。

　ブラウジング制御装置３１４は、アノテーション付与部３３１、フレーム検索部３３２、シーン構成部３３３、及び、表示制御部３３４を有する。

　アノテーション付与部３３１は、コンテンツ記憶部３１１に記憶された対象コンテンツを、順次、注目コンテンツに選択する。

　そして、アノテーション付与部３３１は、図１のアノテーション付与装置１４と同様に、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用いて、注目コンテンツの各フレームに、アノテーションを付与し、注目コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号（第tフレームのt）とを対応付けたアノテーション単語情報を、シーン構成部３３３に供給する。

　フレーム検索部３３２は、コンテンツ記憶部３１１に記憶された対象コンテンツを、順次、注目コンテンツに選択する。

　そして、フレーム検索部３３２は、図１のフレーム検索装置１５と同様に、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用いて、注目コンテンツからキーワードフレームを検索し、そのキーワードフレームの時系列順の並びであるキーワードダイジェストを、シーン構成部３３３に供給する。

　シーン構成部３３３は、アノテーション付与部３３１から供給されるアノテーション単語情報や、フレーム検索部３３２から供給されるキーワードダイジェストを用いて、コンテンツ記憶部３１１に記憶された注目コンテンツをシーンに区分する（注目コンテンツのシーンを構成する）。

　さらに、シーン構成部３３３は、注目コンテンツの各シーンの代表画像を生成し、その各シーンの代表画像を、表示時刻順に、上から下方向に並べた時刻順概要表示画像を生成し、表示制御部３３４に供給する。

　ここで、シーン構成部３３３は、注目コンテンツを、シーンに区分するときに、各シーンの開始時刻、及び、終了時刻（以下、シーン時刻情報ともいう）を検出し、時刻順概要表示画像とともに、表示制御部３３４に供給する。

　表示制御部３３４は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの注目コンテンツの番組欄に、その注目コンテンツの時刻順概要表示画像を表示させる。

　また、表示制御部３３４は、アノテーション付与部３３１で得られたアノテーション単語情報を用いて、例えば、図３８に示したように、シーンを構成するフレームに付与されたアノテーションとしての単語を表示させる。

　さらに、表示制御部３３４は、EPG上に表示された時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部３０１（図３５）の操作によって指定されることによって、そのシーンの頭出しが指示された場合、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、頭出しを行うシーンの開始時刻を、シーン構成部３３３からのシーン時刻情報から認識する。

　そして、表示制御部３３４は、コンテンツ記憶部３１１から、頭出しコンテンツを読み出し、頭出しを行うシーンから再生する再生制御を行う。

　［ブラウジングレコーダの処理］

　以下、図３５のブラウジングレコーダで行われる各種の処理を説明する。

　図４１は、図３５のブラウジングレコーダで行われる設定処理を説明するフローチャートである。

　設定処理では、各種の設定が行われる。

　すなわち、設定処理では、ステップＳ２１１において、制御部３０２（図３５）が、アノテーションモデルの学習を開始する時刻である学習開始時刻の設定を行い、処理は、ステップＳ２１２に進む。

　ここで、学習開始時刻については、ブラウジングレコーダの工場等において、例えば、22時等の所定の時刻を、デフォルトの時刻に設定しておき、そのデフォルトの時刻を、学習開始時刻に設定することができる。

　また、学習開始時刻は、ユーザの操作に従って設定することができる。すなわち、例えば、ユーザが、操作部３０１（図３５）を操作することにより、学習開始時刻となる時刻を入力した場合には、その時刻を、学習開始時刻に設定することができる。

　なお、学習開始時刻としては、例えば、曜日ごとに異なる時刻を設定することができる。

　また、学習開始時刻の設定では、カレンダを表示し、ユーザに、一日ごとに異なる時刻を、学習開始時刻として入力してもらうことが可能である。

　さらに、学習開始時刻としては、ユーザが操作部３０１を操作することにより、過去に、学習開始時刻として入力した時刻を設定することが可能である。

　ステップＳ２１２では、制御部３０２は、学習用コンテンツを取得する学習用コンテンツ取得期間を設定し、処理は、ステップＳ２１３に進む。

　ここで、制御部３０２では、学習開始時刻から１週間ないし数週間等だけ遡った時刻から、学習開始時刻（の直前）までの期間を、デフォルトの期間として、そのデフォルトの期間を、学習用コンテンツ取得期間に設定することができる。

　また、制御部３０２では、ユーザによる操作部３０１の操作に従った、学習開始時刻以前の期間を、学習用コンテンツ取得期間に設定することができる。

　ステップＳ２１３では、制御部３０２は、シーンブラウジングを行う対象のコンテンツ、すなわち、ブラウジング制御装置３１４（図３５、図４０）において、シーンを抽出する対象の対象コンテンツを取得する対象コンテンツ取得期間を設定し、処理は、ステップＳ２１４に進む。

　ここで、制御部３０２は、例えば、学習開始時刻から１週間等だけ遡った時刻から、学習開始時刻（の直前）までの期間を、デフォルトの期間として、そのデフォルトの期間を、対象コンテンツ取得期間に設定する。

　また、制御部３０２では、ユーザによる操作部３０１の操作に従って、対象コンテンツ取得期間を設定することができる。

　但し、制御部３０２は、学習用コンテンツ取得期間と重複する期間を、対象コンテンツ取得期間に設定する。したがって、対象コンテンツ取得期間は、学習用コンテンツ取得期間に包含される。

　学習用コンテンツ取得期間と重複する期間を、対象コンテンツ取得期間に設定することにより、内容がそれほど異ならないコンテンツを、学習用コンテンツ、及び、対象コンテンツとして用いることができる。

　すなわち、例えば、オリンピックが開催されている時期のコンテンツを、対象コンテンツとする場合に、やはり、オリンピックが開催されている時期のコンテンツを、学習用コンテンツとして学習を行ったアノテーションモデルを用いて、アノテーション付与処理、及び、フレーム検索処理を行うことができる。

　ステップＳ２１４では、制御部３０２は、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）の中で、学習用コンテンツ取得期間に放送されるコンテンツを、録画対象のコンテンツである録画対象コンテンツに設定する。

　そして、制御部３０２は、録画対象コンテンツの録画予約を行って、すなわち、録画対象コンテンツが放送されるチャンネル、録画を開始する録画開始時刻（録画対象コンテンツの放送開始時刻）、及び、録画を終了する録画終了時刻（録画対象コンテンツの放送終了時刻）の設定を行って、設定処理は、終了する。

　ここで、上述したように、対象コンテンツ取得期間は、学習用コンテンツ取得期間に包含されるので、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）の中で、学習用コンテンツ取得期間に放送されるニュース番組が、録画対象コンテンツに設定されることにより、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）の中で、対象コンテンツ取得期間に放送されるニュース番組も、録画対象コンテンツに設定される。

　なお、ジャンルがブラウジングジャンルであるニュースのコンテンツの中からの、録画対象コンテンツの設定は、ユーザによる操作部３０１の操作に従って行うことが可能である。

　すなわち、制御部３０２では、EPG上に、学習用コンテンツ取得期間に放送される、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）を、図示せぬディスプレイに表示させ、そのEPG上から、ユーザが操作部３０１を操作することにより選択したニュース番組を、録画対象コンテンツに設定することができる。

　図４２は、図３５のブラウジングレコーダで行われるコンテンツ取得関連処理を説明するフローチャートである。

　コンテンツ取得関連処理では、録画対象コンテンツの取得に関連する処理が行われる。

　すなわち、コンテンツ取得関連処理では、ステップＳ２２１において、制御部３０２は、現在時刻が、任意の録画対象コンテンツの録画開始時刻であるかどうかを判定する。

　ステップＳ２２１において、現在時刻が録画開始時刻であると判定された場合、処理は、ステップＳ２２２に進み、制御部３０２は、録画対象コンテンツの録画を、録画終了時刻まで行うように、コンテンツ取得部３１０を制御し、処理は、ステップＳ２２１に戻る。

　ここで、コンテンツ取得部３１０は、制御部３０２の制御に従って、録画対象コンテンツの予約録画を行い、コンテンツ記憶部３１１に記憶させる。

　一方、ステップＳ２２１において、現在時刻が録画開始時刻でないと判定された場合、処理は、ステップＳ２２２をスキップして、ステップＳ２２３に進み、制御部３０２は、コンテンツ記憶部３１１に記憶（録画）されたコンテンツの中に、消去条件を満たすコンテンツがあるかどうかを判定する。

　ここで、消去条件とは、コンテンツを消去する条件であり、例えば、学習用コンテンツ取得期間より前に放送（録画）されたことを採用することができる。

　この場合、コンテンツ記憶部３１１に記憶されたコンテンツの中に、学習用コンテンツ取得期間より前に放送されたコンテンツがあれば、消去条件を満たすコンテンツがあると判定される。

　ステップＳ２２３において、コンテンツ記憶部３１１に記憶されたコンテンツの中に、消去条件を満たすコンテンツがあると判定された場合、処理は、ステップＳ２２４に進み、制御部３０２は、コンテンツ記憶部３１１に記憶されたコンテンツの中の、消去条件を満たすコンテンツを消去して、処理は、ステップＳ２２１に戻る。

　ここで、消去条件を満たすコンテンツを、コンテンツ記憶部３１１から消去することにより、コンテンツ記憶部３１１の記憶容量が圧迫されることを防止することができる。

　なお、ユーザは、操作部３０１を操作することにより、コンテンツ記憶部３１１に記憶されたコンテンツに、いわゆるプロテクトをかけることができる。

　制御部３０２は、プロテクトがかけられているコンテンツについては、消去条件を満たしても、消去を行わない。

　一方、ステップＳ２２３において、コンテンツ記憶部３１１に記憶されたコンテンツの中に、消去条件を満たすコンテンツがないと判定された場合、処理は、ステップＳ２２４をスキップして、ステップＳ２２１に戻る。

　なお、図３５のブラウジングレコーダの性能によっては、コンテンツの予約録画を行いながら、学習装置３１２において、そのコンテンツの各フレームの特徴量の抽出を行うことができる。

　学習装置３１２において抽出された特徴量は、学習装置３１２でのアノテーションモデルの学習の他、ブラウジング制御装置３１４（図４０）のアノテーション付与部３３１でのアノテーション付与処理や、フレーム検索部３３２でのフレーム検索処理に用いることができる。

　また、本実施の形態では、コンテンツ取得部３１０は、テレビジョン放送の番組を受信するチューナで構成されるが、コンテンツ取得部３１０が、複数のチューナを有する場合には、録画（放送）の時間帯が重複する複数の録画対象コンテンツがあっても、コンテンツ取得部３１０が有するチューナの数を限度として、録画の時間帯が重複する複数の録画対象コンテンツの録画を行うことができる。

　なお、録画の時間帯が重複する録画対象コンテンツの数が、コンテンツ取得部３１０が有するチューナの数を超える場合には、コンテンツ取得部３１０は、所定の録画ルールに従って、チューナの数に等しい数の録画対象コンテンツを、優先的に録画する。

　録画ルールとしては、例えば、録画開始時刻が早いコンテンツほど、優先的に録画することや、録画開始時刻が同一のコンテンツどうしについては、字幕のテキストを含むコンテンツを、優先的に録画すること等を採用することができる。

　また、ユーザは、操作部３０１を操作することにより、録画の時間帯が重複する複数の録画対象コンテンツについて、録画の優先順位を設定することができる。ユーザが録画の優先順位を設定した場合、録画ルールにかかわらず、ユーザが設定した優先順位で、コンテンツの録画が行われる。

　ここで、コンテンツ記憶部３１１には、録画がされたコンテンツ（及びその特徴量）を、字幕のテキストを含むコンテンツと、含まないコンテンツとに分けて記憶させておくことができる。

　図３５のブラウジングレコーダにおいて、予約録画によって、学習用コンテンツ取得期間に放送された録画対象コンテンツがコンテンツ記憶部３１１に記憶され、（現在時刻が）学習開始時刻となると、学習装置３１２は、コンテンツ記憶部３１１に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）のうちの、学習用コンテンツ取得期間に放送されたコンテンツの中から、字幕のテキストを有するコンテンツを、学習用コンテンツとして選択する。

　なお、字幕のテキストを有しないコンテンツであっても、例えば、番組メタデータサービス等から、説明テキストとなる番組のメタデータを取得することができるコンテンツについては、学習用コンテンツとして選択することが可能である。

　学習装置３１２（図３５）は、学習用コンテンツの選択後、図１の学習装置１２と同様に、学習用コンテンツから、アノテーション用系列を構成し、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。

　図４３は、ブラウジング制御装置３１４が、アノテーションモデルを用いて行う処理（ブラウジング制御処理）を説明するフローチャートである。

　ユーザが、例えば、ジャンルがブラウジングジャンルの番組のブラウジングを行うように、操作部３０１を操作すると、ブラウジング制御装置３１４は、ブラウジング制御処理を開始する。

　ブラウジング制御処理では、ステップＳ２４１において、ブラウジング制御装置３１４（図４０）のアノテーション付与部３３１が、コンテンツ記憶部３１１に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）のうちの、対象コンテンツ取得期間に放送されたコンテンツのすべてを、対象コンテンツに選択し、処理は、ステップＳ２４２に進む。

　ステップＳ２４２では、アノテーション付与部３３１は、図１のアノテーション付与装置１４と同様に、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用いて、各対象コンテンツの各フレームに、アノテーション（となる単語）を付与し、各対象コンテンツについて、各フレームに付与されたアノテーションを含むアノテーション単語情報を、シーン構成部３３３に供給して、処理は、ステップＳ２４３に進む。

　ステップＳ２４３では、シーン構成部３３３が、コンテンツ記憶部３１１に記憶された各対象コンテンツについて、アノテーション付与部３３１からのアノテーション単語情報に基づき、同一のアノテーションが付与されている、時間的に連続する１フレーム以上のフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツを、シーンに区分する。

　さらに、シーン構成部３３３は、各対象コンテンツについて、各シーンの開始時刻、及び、終了時刻であるシーン時刻情報を検出し、処理は、ステップＳ２４４に進む。

　ステップＳ２４４では、シーン構成部３３３は、各対象コンテンツについて、対象コンテンツを構成する各シーンの代表画像を生成し、処理は、ステップＳ２４５に進む。

　ステップＳ２４５では、シーン構成部３３３は、各対象コンテンツについて、対象コンテンツを構成する各シーンの代表画像を、表示（再生）時刻順に、上から下方向に並べた時刻順概要表示画像を生成する。

　そして、シーン構成部３３３は、各対象コンテンツについて、時刻順概要表示画像を、シーン時刻情報、及び、アノテーション単語情報とともに、表示制御部３３４に供給して、処理は、ステップＳ２４５からステップＳ２４６に進む。

　ステップＳ２４６では、表示制御部３３４は、EPGのデータを取得（受信）し、そのEPGのデータを用いて、EPG（の画像）を生成する。

　さらに、表示制御部３３４は、各対象コンテンツについて、EPG上の対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を配置するとともに、その時刻順概要表示画像の各シーンの代表画像の近傍に、例えば、図３８に示したように、吹き出しの形で、シーンを構成するフレームに付与されたアノテーションとしての単語を配置する。

　ここで、表示制御部３３４は、シーンを構成するフレームに付与されたアノテーションとしての単語を、シーン構成部３３３からのアノテーション単語情報から認識する。

　その後、処理は、ステップＳ２４６からステップＳ２４７に進み、表示制御部３３４は、時刻順概要表示画像とアノテーションとが配置されたEPGを、図示せぬディスプレイに表示させ、処理は、ステップＳ２４８に進む。

　ステップＳ２４８では、表示制御部３３４は、対象コンテンツの再生制御を行う。

　すなわち、表示制御部３３４は、EPG上に表示された、対象コンテンツの時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部３０１の操作によって指定されると、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、ユーザによって代表画像が指定されたシーンの開始時刻を、シーン構成部３３３からのシーン時刻情報から認識する。

　そして、表示制御部３３４は、コンテンツ記憶部３１１から、頭出しコンテンツとしての対象コンテンツを読み出し、その対象コンテンツの再生を、ユーザによって代表画像が指定されたシーンの開始時刻から開始する再生制御を行う。

　ところで、表示制御部３３４は、時刻順概要表示画像とアノテーションとが配置されたEPGを表示するときに、キーワード（を含む検索クエリ）を入力するキーワード入力欄も、図示せぬディスプレイに表示させることができる。

　キーワード入力欄には、ユーザが操作部３０１（図３５）を操作することにより、キーワード（を含む検索クエリ）を入力することができ、ブラウジング制御部３１４は、キーワード入力欄に、キーワードが入力されると、各対象コンテンツについて、対象コンテンツのシーン（コーナ）のうちの、ユーザが操作部３０１を操作することにより入力したキーワードによって内容が表現されるコーナのみの代表画像を並べた画像を生成し、EPG上に表示させる。

　すなわち、図４４は、ユーザがキーワードを入力した場合にブラウジング制御装置３１４が行う処理を説明するフローチャートである。

　ユーザが操作部３０１（図３５）を操作することにより、キーワード入力欄にキーワード（を含む検索クエリ）を入力すると、ステップＳ２６１において、ブラウジング制御装置３１４（図４０）のフレーム検索部３３２が、コンテンツ記憶部３１１に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ（ニュース番組）のうちの、対象コンテンツ取得期間に放送されたコンテンツのすべてを、対象コンテンツに選択し、処理は、ステップＳ２６２に進む。

　すなわち、ステップＳ２６１では、コンテンツ記憶部３１１（図３５）に記憶されたコンテンツのうちの、図４３のステップＳ２４１において対象コンテンツに選択されるコンテンツが、対象コンテンツとして選択される。

　ステップＳ２６２では、フレーム検索部３３２が、図１のフレーム検索装置１５と同様に、アノテーションモデル記憶部３１３に記憶されたアノテーションモデルを用い、各対象コンテンツについて、ユーザが入力したキーワードに対するキーワード合致度が高いフレームであるキーワードフレームを検索し、そのキーワードフレームを時系列に並べたキーワードダイジェストを生成して、シーン構成部３３３（図４０）に供給する。

その後、処理は、ステップＳ２６２からステップＳ２６３に進み、シーン構成部３３３は、各対象コンテンツについて、フレーム検索部３３２からのキーワードダイジェストを構成するキーワードフレームから、時間的に連続する１フレーム以上のフレームの集まり（表示（再生）時刻が連続しているフレームの集まり）を、シーンとして抽出し、これにより、対象コンテンツのキーワードダイジェストを、シーンに区分する。

　さらに、シーン構成部３３３は、各対象コンテンツについて、各シーンの開始時刻、及び、終了時刻であるシーン時刻情報を検出し、処理は、ステップＳ２６４に進む。

　ステップＳ２６４では、シーン構成部３３３は、各対象コンテンツについて、対象コンテンツのキーワードダイジェストを構成する各シーンの代表画像を生成し、処理は、ステップＳ２６５に進む。

　ステップＳ２６５では、シーン構成部３３３は、各対象コンテンツについて、対象コンテンツのキーワードダイジェストを構成する各シーンの代表画像を、表示（再生）時刻順に、上から下方向に並べた時刻順概要表示画像を生成する。

　そして、シーン構成部３３３は、各対象コンテンツについて、時刻順概要表示画像を、シーン時刻情報とともに、表示制御部３３４に供給して、処理は、ステップＳ２６５からステップＳ２６６に進む。

　ステップＳ２６６では、表示制御部３３４は、EPGのデータを取得（受信）し、そのEPGのデータを用いて、EPG（の画像）を生成する。

　さらに、表示制御部３３４は、各対象コンテンツについて、EPG上の対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を配置する。

　その後、処理は、ステップＳ２６６からステップＳ２６７に進み、表示制御部３３４は、時刻順概要表示画像が配置されたEPGを、図示せぬディスプレイに表示させ、処理は、ステップＳ２６８に進む。

　ステップＳ２６８では、表示制御部３３４は、対象コンテンツの再生制御を行う。

　なお、ユーザは、操作部３０１を操作することによって、EPG上の、時刻順概要表示画像が配置された番組欄を指定することができる。

　この場合、表示制御部３３４では、ユーザによって指定された番組欄に対応する対象コンテンツのキーワードダイジェストを再生する再生制御を行うことができる。

　キーワードダイジェストの再生では、そのキーワードダイジェストを構成するキーワードフレームを、時系列に（表示時刻順で）再生することや、キーワード合致度が高い順に再生することができる。

　なお、ブラウジングジャンルは、ニュースに限定されるものではない。

　また、時刻順概要表示画像は、EPG上ではなく、単独で表示することができる。すなわち、１以上の対象コンテンツの時刻順概要表示画像は、先頭の位置（最初のシーンの代表画像の位置）を揃えて、時刻順概要表示画像を構成するシーンの代表画像が並ぶ方向（本実施の形態では、縦方向）と直交する方向（本実施の形態では、横方向）に並べて表示することができる。

　さらに、図３５のブラウジングレコーダにおいて、学習用コンテンツ及び対象コンテンツとして用いるコンテンツは、テレビジョン放送の放送番組の他、インターネット上のサーバから提供されるコンテンツ等を採用することができる。

　［本発明を適用したコンピュータの説明］

　次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

　そこで、図４５は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

　プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク４０５やROM４０３に予め記録しておくことができる。

　あるいはまた、プログラムは、リムーバブル記録媒体４１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体４１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体４１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

　なお、プログラムは、上述したようなリムーバブル記録媒体４１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク４０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

　コンピュータは、CPU(Central Processing Unit)４０２を内蔵しており、CPU４０２には、バス４０１を介して、入出力インタフェース４１０が接続されている。

　CPU４０２は、入出力インタフェース４１０を介して、ユーザによって、入力部４０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)４０３に格納されているプログラムを実行する。あるいは、CPU４０２は、ハードディスク４０５に格納されたプログラムを、RAM(Random Access Memory)４０４にロードして実行する。

　これにより、CPU４０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU４０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース４１０を介して、出力部４０６から出力、あるいは、通信部４０８から送信、さらには、ハードディスク４０５に記録等させる。

　なお、入力部４０７は、キーボードや、マウス、マイク等で構成される。また、出力部４０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

　なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

　１１　コンテンツ記憶部，　１２　学習装置，　１３　アノテーションモデル記憶部，　１４　アノテーション付与装置，　１５　フレーム検索装置，　１６　表示制御装置，　２１　特徴量抽出部，　２２　モデル学習部，　３１　画像取得部，　３２　画像特徴量抽出部，　３３　説明テキスト取得部，　３４　テキスト特徴量抽出部，　３５　同期部，　４１　特徴量抽出部，　４２　最尤状態系列算出部，　４３　単語選択部，　５１　特徴量抽出部，　５２　最尤状態系列算出部，　５３　キーワード合致度算出部，　５４　キーワード供給部，　５５　フレーム選択部，　６１　特徴量抽出部，　６２　最尤状態系列算出部，　６３　表示制御部，　１０１　画像特徴量抽出部，　１０１_１　第１画像特徴量抽出部，　１０１_２　第２画像特徴量抽出部，　１０１_３　第３画像特徴量抽出部，　１０２　遁世取得部，　１０３　音声特徴量抽出部，　１５１　基底空間学習部，　１５２　基底空間データ記憶部，　１５３　次元圧縮部，　１６１　基底空間学習部，　１６２　基底空間データ記憶部，　１６３　次元圧縮部，　１７１　画像取得部，　１７２　画像特徴量抽出部，　１７２_１　第１画像特徴量抽出部，　１７２_２　第２画像特徴量抽出部，　１７２_３　第３画像特徴量抽出部，　１７３　基底空間データ記憶部，　１７４　次元圧縮部，　１８１　説明テキスト取得部，　１８２　テキスト特徴量抽出部，　１８３　基底空間データ記憶部，　１８４　次元圧縮部，　１９１　同期部，　２０１　基底空間学習部，　２０２　基底空間データ記憶部，　２０３　次元圧縮部，　２１１　基底空間学習部，　２１２　基底空間データ記憶部，　２１３　次元圧縮部，　２２１　基底空間学習部，　２２２　基底空間データ記憶部，　２２３　次元圧縮部，　２６１　基底空間データ記憶部，　２６２　次元圧縮部，　２７１　基底空間データ記憶部，　２７２　次元圧縮部，　２８１　音声取得部，　２８２　音声特徴量抽出部，　２８３　基底空間データ記憶部，　２８４　次元圧縮部，　３０１　操作部，　３０２　制御部，　３１０　コンテンツ取得部，　３１１　コンテンツ記憶部，　３１２　学習装置，　３１３　アノテーションモデル記憶部，　３１４　ブラウジング制御装置，　３３１　アノテーション付与部，　３３２　フレーム検索部，　３３３　シーン構成部，　３３４　表示制御部，　４０１　バス，　４０２　CPU，　４０３　ROM，　４０４　RAM，　４０５　ハードディスク，　４０６　出力部，　４０７　入力部，　４０８　通信部，　４０９　ドライブ，　４１０　入出力インタフェース，　４１１　リムーバブル記録媒体

Claims

　学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出する特徴量抽出手段と、
　前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うモデル学習手段と
　を備える情報処理装置。
　前記学習用コンテンツは、字幕のテキストを含み、
　前記説明テキストは、前記学習用コンテンツに含まれる字幕のテキストである
　請求項１に記載の情報処理装置。
　前記特徴量抽出手段は、
　　所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、１つの文書として抽出し、
　　前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出する
　請求項２に記載の情報処理装置。
　前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与するアノテーション付与手段をさらに備える
　請求項２に記載の情報処理装置。
　前記特徴量抽出手段は、
　　所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、１つの文書として抽出し、
　　前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出し、
　前記アノテーション付与手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
　　前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される前記多項分布において頻度が高い単語を、前記注目フレームに付与するアノテーションとして選択する
　請求項４に記載の情報処理装置。
　前記アノテーションモデルを用いて、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、前記キーワードフレームを検索するフレーム検索手段をさらに備える
　請求項２に記載の情報処理装置。
　前記特徴量抽出手段は、
　　所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、１つの文書として抽出し、
　　前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出し、
　前記フレーム検索手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
　　前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される前記多項分布において、前記所定のキーワードの頻度が高い場合、前記注目フレームを、前記キーワードフレームとして選択する
　請求項６に記載の情報処理装置。
　前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御手段をさらに備える
　請求項２に記載の情報処理装置。
　前記特徴量抽出手段は、
　　所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、１つの文書として抽出し、
　　前記文書において各単語が出現する頻度を表す多項分布を、前記テキスト特徴量として抽出し、
　前記表示制御手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求めることにより、前記対象コンテンツの各フレームに対応する状態を求め、
　　前記状態において観測される多項分布に基づき、その状態に対応するフレームに付与するアノテーションを求め、
　　前記アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる
　請求項８に記載の情報処理装置。
　前記表示制御手段は、
　　前記アノテーションモデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移確率に基づいて求め、
　　前記アノテーションモデルの状態が配置されるマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、
　　前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを表示させ、
　　前記モデルマップ上の状態に、前記状態に対応するフレームを代表する代表画像と、前記状態に対応するフレームに付与するアノテーションを表示させる
　請求項９に記載の情報処理装置。
　前記特徴量抽出手段は、前記画像特徴量、及び、テキスト特徴量の次元を小さくする次元圧縮を行い、
　前記モデル学習手段は、前記次元圧縮後の前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームを、アノテーション用系列として用いて、アノテーションモデルの学習を行う
　請求項２に記載の情報処理装置。
　前記特徴量抽出手段は、
　　前記画像特徴量を写像するための、前記画像特徴量の次元より小さい次元の画像用基底空間の基底空間データを、前記画像特徴量を用いて求め、
　　前記画像用基底空間の基底空間データに基づき、前記画像特徴量の次元圧縮を行い、
　　前記テキスト特徴量を写像するための、前記テキスト特徴量の次元より小さい次元のテキスト用基底空間の基底空間データを、前記テキスト特徴量を用いて求め、
　　前記テキスト用基底空間の基底空間データに基づき、前記テキスト特徴量の次元圧縮を行う
　請求項１１に記載の情報処理装置。
　前記特徴量抽出手段は、
　　前記画像特徴量を用いて、ベクトル量子化に用いるコードブックを、前記画像用基底空間の基底空間データとして求め、
　　前記コードブックを用いて、前記画像特徴量のベクトル量子化を行うことにより、セントロイドベクトルを表すコードを、次元圧縮後の画像特徴量として求める
　請求項１２に記載の情報処理装置。
　前記特徴量抽出手段は、
　　所定の時間長の窓を、一定間隔でずらしながら、前記窓内に表示される前記字幕のテキストに含まれる単語を、１つの文書として抽出し、
　　前記文書において各単語が出現する頻度を、前記テキスト特徴量として抽出し、
　　前記学習用コンテンツから得られる文書を用いて、LDA(Latent Dirichlet Allocation)の学習を行うことにより、前記LDAのパラメータを、テキスト用基底空間の基底空間データとして求め、
　　前記LDAのパラメータを用いて、前記文書から得られた前記テキスト特徴量を、その文書に対する前記LDAの各潜在トピックの尤度であるトピック尤度に変換し、前記トピック尤度が最大の潜在トピックを表すトピックラベルを、次元圧縮後のテキスト特徴量として求める
　請求項１２に記載の情報処理装置。
　前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与するアノテーション付与手段をさらに備え、
　前記特徴量抽出手段は、
　　前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
　前記アノテーション付与手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
　　前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、前記注目フレームの内容を表すフレームトピックとして選択し、
　　前記トピック対頻出単語テーブルに基づき、前記フレームトピックにおいて出現頻度が高い単語を、前記注目フレームに付与するアノテーションとして選択する
　請求項１４に記載の情報処理装置。
　前記アノテーションモデルを用いて、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、前記キーワードフレームを検索するフレーム検索手段をさらに備え、
　前記特徴量抽出手段は、
　　前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
　前記フレーム検索手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求め、
　　前記最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、前記注目フレームの内容を表すフレームトピックとして選択し、
　　前記トピック対頻出単語テーブルに基づき、前記フレームトピックにおける前記所定のキーワードの出現頻度を求め、前記所定のキーワードの出現頻度が高い場合、前記注目フレームを、前記キーワードフレームとして選択する
　請求項１４に記載の情報処理装置。
　前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御手段をさらに備え、
　前記特徴量抽出手段は、
　　前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
　前記表示制御手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求めることにより、前記対象コンテンツの各フレームに対応する状態を求め、
　　前記状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、
　　前記トピック対頻出単語テーブルに基づき、前記フレームトピックにおいて出現頻度が高い単語を、そのフレームトピックが内容を表すフレームに付与するアノテーションとして求め、
　　前記アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる
　請求項１４に記載の情報処理装置。
　前記アノテーションモデルを用いて、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御手段をさらに備え、
　前記特徴量抽出手段は、
　　前記学習用コンテンツから得られる文書を用いて、前記文書に出現する単語の単語辞書を生成するとともに、前記LDAの学習によって得られる、前記LDAの各潜在トピックにおいて前記単語辞書の各単語が生起する生起確率を用いて、前記LDAの潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度のトピック対頻出単語テーブルの作成を行い、
　前記表示制御手段は、
　　前記対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、前記アノテーション用系列を構成し、
　　前記アノテーションモデルにおいて、前記アノテーション用系列が観測される最尤状態系列を求めることにより、前記対象コンテンツの各フレームに対応する状態を求め、
　　前記状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、
　　前記トピック対頻出単語テーブルに基づき、前記潜在トピックにおいて出現頻度が高い単語を、その潜在トピックがフレームトピックであるフレームに付与するアノテーションとして求め、
　　前記潜在トピックごとに、その潜在トピックがフレームトピックであるフレームに付与するアノテーションを表示させる
　請求項１４に記載の情報処理装置。
　情報処理装置が、
　学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出し、
　前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行う
　ステップを含む情報処理方法。
　学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、前記学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、前記説明テキストのテキスト特徴量として抽出する特徴量抽出手段と、
　前記画像特徴量、及び、前記テキスト特徴量を含むマルチストリームであるアノテーション用のアノテーション用系列を用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行うモデル学習手段と
　して、コンピュータを機能させるためのプログラム。