WO2006068269A1

WO2006068269A1 - 映像構造化装置及び方法

Info

Publication number: WO2006068269A1
Application number: PCT/JP2005/023748
Authority: WO
Inventors: Noboru Nakajima
Original assignee: Nec Corporation
Priority date: 2004-12-24
Filing date: 2005-12-26
Publication date: 2006-06-29
Also published as: JPWO2006068269A1; US7949207B2; US20110217026A1; US20080166057A1; US8126294B2

Abstract

　映像構造化装置は、フレーム画像中に文字列が存在するか否かを判断して文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、フレーム識別情報と文字列存在フレーム画像と文字列位置情報とをそれぞれ関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、インデックスファイルに蓄積されている文字列存在フレーム画像と文字列位置情報とに基づいて、文字列が存在する範囲を切り出した画像による文字列表示をフレーム識別情報と関連付けて表示手段に表示させる構造情報呈示手段と、を有する。

Description

明細書

映像構造化装置及び方法

技術分野

[0001] 本発明は、映像のアーカイブ及び監視と、映像内容に関する構造情報の呈示方法とに関し、特に、映像内の所定の箇所に効率的にアクセスするための映像構造化装置及び方法に関する。

背景技術

[0002] 近年のデジタル映像技術の発展に伴って、多くの映像が動画ファイルとしてハードディスク等の記憶装置に蓄積されている。動画ファイルは多くの時系列の画像を含んでいるので、一般に、動画ファイルの中から所望の映像の内容を検索することは困難となっている。

[0003] 映像内容に関する構造情報の呈示方式の一例として、特開 2004— 80587号公報に開示されたテレビジョン信号記録再生装置が知られている。このテレビジョン信号記録再生装置は、デジタル形式のテレビジョン信号であるデジタルビデオ信号を番組ごとに書き込み、あるいは、書き込まれたデジタルビデオ信号を各番組ごとに読み出す記録再生部と、デジタルビデオ信号の書き込み、及び、読み出し処理を実施する制御部と、記録再生部から読み出されるデジタルビデオ信号の内、各番組の任意時点の少なくとも 1フレームの画面から画面寸法が縮小されたサムネイル画像を生成するサムネイル生成部と、サムネイル生成部で生成された各番組のサムネイル画像力、らサムネイル一覧画面を合成して出力するサムネイル合成部と、を備えている。記録再生部内には、サムネイル一覧画面を格納するサムネイル一覧領域が設けられている。制御部は、記録再生部に対して各番組のデジタルビデオ信号を書き込むたびに、サムネイル生成部によってサムネイル画像を生成し、生成した各番組のサムネィル画像からサムネイル合成部によってサムネイル一覧画面を合成し、この合成したサムネイル一覧画面をサムネイル一覧領域に格納する。このテレビジョン信号記録再生装置では、各番組の最初の 1フレーム、又はタイマー等を利用して番組開始から 5分後の画面などの任意時点の 1フレーム以上の画面をサムネイル画像としている。 [0004] し力ながら、特開 2004— 80587号公報に開示されたテレビジョン信号記録再生装置は、一定の時間間隔又はシーンチェンジのタイミングで複数のフレーム画像をサムネイルとして利用しているので、必ずしも画像コンテンツの内容を適切に表現したィンデッタスが映像ソースと関連付けて構造化されているとは限らないものである。したがって、このテレビジョン信号記録再生装置では、利用者が必要とする映像ファイルの特定部分力 Sインデックス上に現れない可能性が高いために、利用者が必要とする画像へのアクセス効率が悪レ、とレ、う不具合を生じてレ、る。

[0005] 映像中のテロップ文字を認識する方法として、特開平 11一 167583号公報には、まず映像を映像蓄積媒体とテロップ文字認識'検索端末に入力し、映像蓄積媒体側では、映像と映像が蓄積された時点での ro情報を映像蓄積部に蓄積し、テロップ文字認識'検索端末側では、テロップ文字表示フレームの検出、テロップ文字領域の抽出、テロップ文字の認識の各処理を行い、テロップ文字認識結果とそのテロップ文字の表示された時点での ro情報をインデックスファイルとしてインデックスファイル蓄積部に蓄積する方法が開示されている。 ro情報としては、例えば時間情報が蓄積され、テロップ文字の認識結果としては、例えば文字コードが出力される。利用者が、例えば WWW (World wide web)ブラウザなどのインタフエ一スから、その所望とする映像について、映像検索端末の映像検索情報入力記憶部から文字コードで入力すると、入力された文字コードは、テロップ文字認識'検索端末のインデックスファイル蓄積部に蓄積されているインデックスファイルの中から検索され、対応する ro情報を持つ映像が映像蓄積部から引き出される。その結果、映像検索端末の映像表示部、例えばコンピュータディスプレイには、検索された映像が表示されることとなっている。

[0006] し力、しながら、特開平 11— 167583号公報に基づくシステムでは、インデックスファィルに含まれるテロップ文字は、文字認識により得られたテキスト情報であるために、誤認識を含む可能性が高いテキスト情報である。この誤認識による無意味なテキスト情報がインデックス上に現れるために、利用者が所望のシーンを選択する際の検索効率が上がらないとレ、う不具合を生じてレ、る。

[0007] 特開 2003— 345809号公報には、ニュース映像に対応するニュース音声を文字列に書き起こす音声書き起こし装置と、ニュース映像において文字列が現れる文字出現区間を検出するとともに、文字列を認識する文字認識装置と、文字認識装置で検出された文字出現区間に対応する音声書き起こし結果中の単語間の類似度を求め、この類似度を利用して、音声書き起こし結果から、文字認識装置で認識された文字列と類似するパッセージを検索する検索装置と、文字認識装置の認識結果と検索装置で検索されたパッセージに対応するニュース映像とを関連付けてデータベースに登録する登録装置とを備えたデータベース構築システムが開示されている。このデータベース構築システムでは、文字認識装置によって認識されたテロップや CGフリツプ文字列中の全単語を用いてニュース音声の書き起こしに対してパッセージ検索を行っている。このようなパッセージ検索を行うことにより、データベース構築システムでは、一つの単語のシソーラスの影響に引きづられて関係のない文を抽出してしまう危険性が軽減され、データベースに関係のないニュース映像が登録される危険性を低減できる。このデータベース構築システムでは、検索結果をパッセージ単位としているので結果の前後関係が理解しやすぐ前後関係が分力りやすい形でニュース映像をデータベースに登録することが可能になる。

[0008] し力ながら、特開 2003— 345809号公報のデータベース構築システムでは、音声に含まれない文字情報はデータベースに登録されないので、利用者が所望のシーンを選択する際の検索の効率が上がらないとレ、う不具合を生じてレ、た。

[0009] 画像データを管理する情報管理装置として、特開 2003— 333265号公報には、外部から画像データを受信して画像データの予め定められた部分からその画像データの属性情報を抽出する属性抽出部と、画像データを受信した旨を示す通知情報を通知すべき通知先を、予め属性情報に対応付けて格納する通知先格納部と、属性抽出部が抽出した属性情報を用いて通知先を通知先格納部から抽出する通知先決定部と、通知先決定部が抽出した通知先に通知情報を通知する出力部と、を備える情報管理装置が開示されている。この情報管理装置によれば、外部から外部情報を受信したときに、外部情報を受信した旨を示す情報を、その情報を通知すべき通知先に出力することができる。ここで出力部は、内部情報 IDに基づいて内部情報格納部から内部情報を抽出し、関連情報及び画像データとともにこの内部情報を、通知先に基づいて閲覧情報データベースに格納している。また出力部は、画像データを受信した旨を示す通知情報を、通知先決定部から受け取った通知先に基づいてュ一ザ端末に送信することができるとともに、内部情報検索部から受け取った内部情報 IDを通知情報とともにユーザ端末に送ることが可能である。

[0010] し力、しながら、特開 2003— 333265号公報の情報管理装置では、画像コンテンツの内容を適切に表現したインデックスが映像ソースと関連付けて構造ィ匕されていないので、利用者が必要とする映像の特定の部分へのアクセスが効率的でないという不具合を生じている。

[0011] 画像から文字を切り出す方法として、特開平 3— 141484号公報には、文字列に含まれる文字数が既知であるときに、文字列を光学的に読み取り、その文字列画像から 1文字に相当する部分画面を切り出す、文字切り出し方法を開示している。この文字切り出し方法では、文字列画像から 1次元系列特徴を抽出するとともに、文字数と 1 次元系列特徴に対応する、文字切り出し位置の特定が可能なモデル関数を定義する。そしてこの方法では、 1次元系列特徴とそのモデル関数とを非線形にマッチングし、非線形マッチングにおける非線形対応関数からモデル関数の文字切り出し位置に対応する文字列画像の文字切り出し位置を求め、求めた文字切り出し位置から 1 文字に相当する部分画像を切り出している。この文字切り出し方法によれば、文字列に含まれる文字数が与えられたときに、文字幅や文字間隔の変動が比較的大きい文字列画像や、文字と文字が接触している文字列画像から 1文字ずつを切り出すことができ、し力もパラメータの数が比較的少なく単純な方法で切り出しを行うことが可能になる。

[0012] し力ながら、特開平 3— 141484号公報の文字切り出し装置は、画像コンテンツの内容を適切に表現したインデックスが映像ソースと関連付けて構造ィ匕されていないので、利用者が必要とする映像の特定の部分へのアクセスが効率良く行うことができないという不具合を秘めている。

[0013] 高速認識検索システムとして、特開 2001— 34709号公報には、入力された文字パターンから特徴ベクトルを生成し、予め生成された決定木の各ノードに記憶された条件にしたがってその特徴ベクトルを識別し、その識別結果にしたがって子ノードを順次選択し、この分類を終端ノードに到達するまで繰り返し行う高速認識検索システムが開示されている。この高速認識検索システムは、予め設定された正解カテゴリを付与してあるパターンの集合から、認識辞書に記憶された複数次元の特徴ベクトルのテンプレートを生成する生成手段と、生成手段で作成されたテンプレートとテンプレートの生成に寄与したパターンとを関連付けて記憶するテンプレート辞書記憶手段と、現在着目しているテンプレート及びそのテンプレートそれぞれに対応するパターンの集合と正解カテゴリの出現頻度とを部分集合に分類しかつ部分集合に属するテンプレートと部分集合への分離を行うためのしきい値とを出力する部分集合生成手段と、部分集合生成手段が逐次生成するテンプレートの部分集合を該当する分離前のテンプレートの部分集合に関連付けて記憶する階層辞書手段と、階層辞書記憶手段に記憶された階層構造を上位階層力も順に入力して入力パターンを分類しかつ分類された結果の子ノードを出力する決定木分類手段と、階層構造のリーフノードからテンプレートを決定するために効果的な特徴量を読出してそれらの特徴量を用いて大分類を行うカテゴリ決定手段とを備えている。ここで部分集合生成手段は、決定されたしきい値に跨って存在するカテゴリをしきい値の両側の部分集合に含めて決定木を生成する。この高速認識検索システムによれば、決定木のリーフノードに属するテンプレートの分布に応じて、以降のカテゴリを特定するための分類方法を最適化し、決定木の生成を行う際に、部分集合の境界面に跨って存在するテンプレートを両方のノードに含めて登録することによって、バックトラックを伴わずに安定な所要時間で高速に検索を実行できる。

[0014] し力しながら、特開 2001— 34709号の高速認識検索システムは、画像コンテンツの内容を適切に表現したインデックスが映像ソースと関連付けて構造ィヒされていないので、利用者が必要とする映像の特定の部分へのアクセスが効率良く行うことができないという不具合を秘めている。

[0015] 以下、本明細書中で引用した特許文献を列挙する。いずれも日本国の特許公開公報である。

特許文献 1 :特開 2004— 80587号公報

特許文献 2：特開平 11一 167583号公報

特許文献 3：特開 2003— 345809号公報特許文献 4 :特開 2003— 333265号公報

特許文献 5：特開平 3— 141484号公報

特許文献 6：特開 2001— 34709号公報

発明の開示

発明が解決しょうとする課題

[0016] 結局、上述した従来技術には、利用者が必要とする画像へのアクセス効率が悪い、利用者が所望のシーンを選択する際の検索効率が上がらない、利用者が必要とする映像の特定の部分へのアクセスが効率的でない、などの問題点がある。

[0017] 本発明の目的は、画像コンテンツの内容を適切に表現した文字列表示を映像ソースと関連付けて構造化し、利用者が必要とする映像の特定の部分へのアクセス効率を向上させることが可能な映像構造化装置及び方法を提供することにある。

[0018] 本発明の別の目的は、映像の内容を解析し、得られる構造情報を文字列表示のィンデッタスリストとして呈示することで、目的の映像に効率的にアクセスすることが可能な映像構造化装置及び方法を提供することにある。

[0019] 本発明の別の目的は、映像の中に存在する文字列を文字認識した際の文字認識結果に含まれる認識誤りの影響を低減したインデックスを呈示することが可能な、映像構造化装置及び方法を提供することにある。

[0020] 本発明の別の目的は、映像の内容を表現した文字列表示又は認識文字列を映像の頭出し用のインデックスとして利用者に対して表示することが可能な、映像構造化装置及び方法を提供することにある。

[0021] 本発明の別の目的は、映像の内容を表現した文字列表示又は認識文字列を映像の頭出し用のインデックスとして利用者に対して表示するとともに、利用者がその文字列表示又は認識文字列を選択する旨の情報を入力することによって、その選択した文字列表示又は認識文字列で特定されるフレーム画像以降の映像を頭出し再生することが可能な、映像構造化装置及び方法を提供することにある。

[0022] 本発明の別の目的は、映像中の文字列を文字認識した時の認識信頼度の大きさに応じて認識文字列の表示を優先させて利用者に対して表示することによって、映像の内容をより適切に表現した文字列の表示を映像の頭出し用のインデックスとして利用者が利用することが可能な、映像構造化装置及び方法を提供することにある。

[0023] 本発明の別の目的は、映像中の文字列を文字認識した時の認識信頼度の小ささに応じて画像による文字列表示を優先させて利用者に対して表示することによって、映像の内容をより適切に表現した文字列の表示を映像の頭出し用のインデックスとして利用者が利用することが可能な、映像構造化装置及び方法を提供することにある

[0024] 本発明の別の目的は、映像が逐次入力されてくるような場合に、映像中に文字列力出現したことを利用者が知ることが可能な映像構造ィ匕装置及び方法を提供することにある。

[0025] 本発明の別の目的は、映像が逐次入力されてくるような場合に、映像中に予め設定した文字列が出現したことを利用者が知ることが可能な映像構造化装置及び方法を提供することにある。

課題を解決するための手段

[0026] 本発明の第 1の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像と、フレーム画像を識別するフレーム識別情報とを出力する映像入力手段と、映像入力手段からフレーム画像及びフレーム識別情報を受け取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、そのフレーム画像を文字列存在フレーム画像として文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、取得した情報をそれぞれ関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、映像情報蓄積手段力、らインデックスファイルを読み出し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像による文字列表示を、文字列存在フレーム画像を識別するフレーム識別情報と関連付けて表示手段に表示させる構造情報呈示手段と、を有する。この映像構造化装置において、文字列位置情報は、例えば、文字列の座標値などによって構成されている。 [0027] 本発明の第 2の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像と、フレーム画像を識別するフレーム識別情報と、映像信号の映像デ一タとを出力する映像入力手段と、映像入力手段からフレーム画像及びフレーム識別情報を受け取ってそのフレーム画像中に文字列が存在するか否力 ^判断し、そのフレーム画像中に文字列が存在すると判断した場合には、そのフレーム画像を文字列存在フレーム画像として文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、構造情報呈示手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得して関連付けてインデックスファイルに蓄積し、映像入力手段から映像データ及びフレーム識別情報とを取得して関連付けて蓄積し、構造情報呈示手段からフレーム識別情報を取得したときには構造情報呈示手段から取得したフレーム識別情報と関連付けられて記録されている映像データを読み出して、構造情報呈示手段から取得したフレーム識別情報に対応するフレーム画像以降の映像データを出力する映像情報蓄積手段と、映像情報蓄積手段が出力する映像データを取得して表示手段に出力して表示させる映像再生手段と、を有する。ここで構造情報呈示手段は、映像情報蓄積手段からインデックスファイルを読み出して、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像による文字列表示を表示手段に出力して表示させ、利用者からその文字列表示を選択する旨の情報が入力されると、選択した文字列表示と関連付けられているフレーム識別情報を映像情報蓄積手段に出力する。

[0028] 本発明の第 3の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像と、フレーム画像を識別するフレーム識別情報とを出力する映像入力手段と、映像入力手段からフレーム画像及びフレーム識別情報を受け取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、そのフレーム画像を文字列存在フレーム画像として文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像に対して文字列認識処理を行って文字コードによる認識文字列を取得して、その認識文字列とフレーム識別情報と文字列位置情報とを出力する文字列認識手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、文字列認識手段力、ら認識文字列とフレーム識別情報と文字列位置情報とを取得し、これらの取得した画像及び情報を関連付けてインデックスファィルに蓄積する映像情報蓄積手段と、映像情報蓄積手段力インデックスファイルを読み出し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像による文字列表示と認識文字列とを、文字列存在フレーム画像を識別するフレーム識別情報と関連付けて表示手段に表示させることが可能な構造情報呈示手段と、を備える。

本発明の第 4の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像と、フレーム画像を識別するフレーム識別情報と、映像信号の映像デ一タとを出力する映像入力手段と、映像入力手段からフレーム画像及びフレーム識別情報を受け取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、そのフレーム画像を文字列存在フレーム画像として文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像に対して文字列認識処理を行って文字コードによる認識文字列を取得して、その認識文字列とフレーム識別情報と文字列位置情報とを出力する文字列認識手段と、構造情報呈示手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、文字列認識手段から認識文字列とフレーム識別情報と文字列位置情報とを取得し、これらの取得した画像及び情報を関連付けてインデックスファイルに蓄積し、映像入力手段から取得した映像データとフレーム識別情報とを関連付けて蓄積し、構造情報呈示手段からフレーム識別情報を取得したときには構造情報呈示手段から取得したフレーム識別情報と関連付けて記録されている映像データを読み出して、構造情報呈示手段から取得したフレーム識別情報に対応するフレーム画像以降の映像データを出力する映像情報蓄積手段と、映像情報蓄積手段が出力する映像データを取得し、取得した映像データを表示手段に出力して表示させる映像再生手段と、を有する。ここで構造情報呈示手段は、映像情報蓄積手段力、らインデックスファイルを読み出して、文字列位置情報に基づレ、て文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像による文字列表示及び認識文字列を表示手段に出力して表示させることが可能であり、利用者から表示された文字列表示又は認識文字列を選択する旨の情報が入力されると、その選択された文字列表示又は認識文字列と関連付けられているフレーム識別情報を映像情報蓄積手段に出力する。

本発明において文字列認識手段は、文字列の認識信頼度を算出して映像情報蓄積手段にするものであってよい。認識信頼度としては、例えば、文字列画像中の個々の文字に対応する文字認識における尤度値や、距離値の平均値の逆数などを用いること力 Sできる。認識信頼度が算出される場合、映像情報蓄積手段は、文字列認識手段から取得した認識信頼度を、文字列位置情報と関連付けてインデックスファイルに蓄積し、構造情報呈示手段は、認識信頼度と所定のしきい値と比較を行う。ここで構造情報呈示手段は、文字列認識の認識信頼度が所定のしきい値より大きいと判断した場合には、画像による文字列表示を表示させずに認識文字列を表示手段に出力して表示させるようにしてもよい。あるいは構造情報呈示手段は、認識信頼度と所定のしきい値と比較を行って文字列認識の信頼度が所定のしきい値より小さいと判断した場合には、認識文字列の表示をさせずに画像による文字列表示を表示手段に出力して表示させるようにしてもよい。このように認識信頼度の大きさに応じて、文字列表示を優先させる力認識文字列の表示を優先させるかを選択することにより、利用者は、文字列表示と認識文字列のうち、映像の内容をより適切に表現したものを映像の頭出し用のインデックスとして利用することが可能となる。 [0031] さらに本発明では、構造情報提示手段は、新たな文字列位置情報が存在すると判断した場合に、映像中に文字列が存在する旨の情報を表示手段に表示させ、及び /又は音声出力手段から音声を出力させてもよい。このように構成することにより、利用者は、映像が逐次入力されてくるような場合に映像中に文字列が出現したことを知ること力 Sでき、さらには、映像の内容を適切に表現した文字列表示又は認識文字列を映像の頭出し用のインデックスとして利用することができるようになる。

[0032] 本発明の第 5の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像を出力する映像入力手段と、映像入力手段からフレーム画像を受け取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、文字列が存在する旨の情報を出力する文字列抽出手段と、文字列抽出手段から文字列が存在する旨の情報を取得した場合には、映像中に文字列が存在する旨の情報を表示手段に表示させ及び Z又は音声出力手段から音声を出力させる構造情報呈示手段と、を有する。

[0033] 本発明の第 6の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像を出力する映像入力手段と、映像入力手段からフレーム画像を受け取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成し、文字列位置情報を出力する文字列抽出手段と、文字列抽出手段から文字列位置情報を取得した場合には、映像中に文字列が存在する旨の情報を表示手段に表示させ及び/又は音声出力手段から音声を出力させる構造情報呈示手段と、を有する。

[0034] 本発明の第 7の様相によれば、映像構造化装置は、映像信号を受け取って、映像のフレーム画像と、フレーム画像を識別するフレーム識別情報とを出力する映像入力手段と、映像入力手段からフレーム画像を受け取ってそのフレーム画像中に文字列が存在するか否力、を判断し、そのフレーム画像中に文字列が存在すると判断した場合には、文字列が存在する文字列存在フレーム画像と、フレーム画像の中に存在する文字列についての文字列位置情報とを出力する文字列抽出手段と、文字列抽出手段から文字列存在フレーム画像と文字列位置情報とを取得し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像に対して文字列認識処理を行って文字コードによる認識文字列を取得して、その認識文字列と文字列位置情報とを出力する文字列認識手段と、文字列認識手段から認識文字列を取得し、取得した認識文字列が予め設定されてレ、るキーワード群に含まれる文字列であるか否力 ^判断し、取得した認識文字列が予め設定されてレ、るキーワードに含まれる文字列であると判断した場合には、映像中に文字列が存在する旨の情報を表示手段に表示させ及び Z又は音声出力手段から音声を出力させる構造情報呈示手段と、を有する。このような構成を採用することにより、利用者は、映像が逐次入力されてくるような場合に、予め設定した文字列が映像中に出現したことを知ることが可能となる。

[0035] 本発明によれば、映像コンテンツの内容を適切に表現した文字列表示や認識文字列等のインデックスと、映像データ（映像ソース）とを関連付けて呈示するようにしたので、利用者が必要とする映像の特定の部分へのアクセスを効率良く行うことが可能となる。多くの映像コンテンツの場合、映像の中に現れる文字情報は的確に映像の内容を反映したものであることが期待され、文字情報の出現のタイミングで生成されたィンデッタスを映像データと関連付けておくことで、利用者は効率的に映像の必要部分にアクセスできるようになる。なお、「ニュース速報」などの映像の内容とは関連しない文字情報が映像中に含まれている場合であっても、利用者が文字列表示によるインデッタスを見ることによって、その利用者は、「ニュース速報」の部分の映像を閲覧するか否かを即時に判断することができる。

[0036] 本発明によれば、映像中に現れる文字情報を自動認識して文字コード化し、得られる認識文字列をインデックスとして利用する場合であっても、認識した文字列の認識信頼度に基づいて画像による文字列表示と認識文字列の表示を切り換えることにより、映像の特定部分へのアクセスをより確実なものとすることができ、映像の検索を効率良くして、利用者による選択操作の負担を軽減することが可能となる。

[0037] さらに本発明によれば、映像が逐次入力されてくるような場合であっても、映像中に文字列が出現したことを利用者は知ることができるようになるとともに、映像中に新たな文字列が出現した旨の通知を受けた利用者は、それらの文字列表示又は認識文字列を選択する旨の情報を入力することによって、その選択した文字列表示又は認識文字列に対応するフレーム画像以降の映像を頭出し再生して閲覧することが可能となる。

[0038] 本発明によれば、利用者は、映像の内容を適切に表現した文字列表示又は認識文字列を映像の頭出し用のインデックスとして利用することが可能となり、さらには、映像の内容を適切に表現した文字列表示又は認識文字列を選択することによって、所望の映像の頭出しを行うことが可能となる。

図面の簡単な説明

[0039] [図 1]本発明に基づく映像構造化装置を含む映像構造化システムの構成例を示すブロック図である。

[図 2]本発明の第 1の実施形態の映像構造ィヒ装置を示すブロック図である。

[図 3]映像識別情報「ABC. MPGjの映像ファイルをデコードして得た時系列のフレーム画像を示す図である。

[図 4]図 3に示した映像フアイルに基づレ、て文字列抽出部が出力するインデックス情報の一例を示す図である。

[図 5]図 4に示したインデックス情報を含む第 1のインデックスファイルの内容の一例を示す図である。

[図 6]インデックスリスト表示の一例を示す図である。

[図 7]本発明の第 2の実施形態の映像構造化装置における信号処理系を示すブロック図である。

[図 8]図 7に示す映像構造ィヒ装置における映像構造ィヒ処理を説明するフローチヤ一トである。

[図 9]文字列抽出処理の一例を示すフローチャートである。

[図 10]本発明の第 3の実施形態の映像構造ィ匕装置を示すブロック図である。

[図 11]本発明の第 4の実施形態の映像構造ィ匕装置を示すブロック図である。

[図 12]第 2のインデックスファイルの内容の一例を示す図である。

[図 13]インデックスリスト表示の一例を示す図である。

[図 14]本発明の第 5の実施形態の映像構造ィ匕装置を示すブロック図である。園 15]本発明の第 6の実施形態の映像構造ィ匕装置を示すブロック図である。園 16]本発明の第 7の実施形態の映像構造ィ匕装置を示すブロック図である。園 17]本発明の第 8の実施形態の映像構造ィ匕装置を示すブロック図である。園 18]本発明の第 9の実施形態の映像構造ィ匕装置を示すブロック図である。

[図 19]インデックスリスト表示の他の例を示す図である。

[図 20]インデックスリスト表示の他の例を示す図である。

符号の説明

10 映像構造化システム

12, 14 撮像装置

16 映像データベース

18, 22 アンテナ

20 映像出力装置

24 基地局

30 通信網

100, 200, 300, 400, 500, 600, 700, 800, 900 映像構造ィ匕装置

101 , 102 フレーム画像

103 文字列

104, 105 撮影時刻

106 文字列

120 インデックスリスト表示の題名

122 映像識別情報表示欄

124 フレーム識別情報

126 文字列表示

128 文字列存在フレーム画像

138, 139 認識文字歹 IJ

170 入力装置

172 表示装置

210, 310, 410, 510, 610, 710, 810, 910 映像入力部 212, 312, 412, 512, 612, 712, 812, 912 文字歹啪出部

216, 316, 416, 516, 816, 916 映像情報蓄積部

218, 318, 418, 518, 618, 718, 818, 918 構造情報呈示部

320, 520, 920 映像再生部

414, 514， 714, 814, 914 文字歹認識部

951 画像処理部

953 圧縮伸張部

955 音声処理部

956 音声出力装置

957 発音処理部

965, 968 送受信部

971 入力インタフェース

973 表示インタフェース

977 記録媒体

978 記録媒体装着部

979 記録媒体インタフェース

980 情報処理部

981 メモリ

984 記録部

990 カレンダ時計

999 ノくス

発明を実施するための最良の形態

図 1は、本発明に基づく映像構造化装置を含む映像構造化システムの構成の一例を示している。この映像構造化システムは、被写体像を受光面に結像させて光電変換してその映像信号を出力する撮像装置 12と、撮像した映像信号を送信用の映像データに変換して通信網 30に対して出力する映像出力装置 20と、本発明に基づく映像構造化装置 100を備えている。映像構造化装置としては、後述する各実施形態での映像構造ィ匕装置 200, 300, 400, 500, 600, 700, 800, 900を用レヽることも可能である。

[0042] 映像出力装置 20は、撮像した映像信号を無線送信用の映像データに変換し、この映像データをアンテナ 18を介して基地局 24や映像構造化装置 100に送信することができるように構成されている。また映像出力装置 20は、撮像した映像信号を記録用の映像データに変換して映像データベース 16に記録することもできるように構成されている。さらに映像出力装置 20は、映像データベース 16に記録されている映像データを読み出して、送信用の映像データに変換して通信網 30に対して出力することができるように構成されている。なお、映像データは、コンポジット映像信号等であつてもよレ、。通信網 30として、ケーブルテレビ用のネットワークを用いてもよい。

[0043] またさらに、映像出力装置 20は、映像データベース 16に記録されている映像データを読み出して、無線送信用の映像データに変換し、この映像データをアンテナ 18 、 22を介して基地局 24や映像構造化装置 100に送信する機能も備えている。映像出力装置 20は、基地局 24や映像構造ィ匕装置 100が無線又は有線の通信手段を用レヽて送信した映像データをアンテナ 18等を用レ、て受信し、映像データベース 16に記録する機能も備えている。

[0044] 基地局 24は、映像出力装置 20のアンテナ 18から出力された映像データをアンテナ 22を用いて受信し、有線で伝送される映像データに変換した後に通信網 30を介して映像構造化装置 100に出力する機能を備えている。基地局 24は、さらに、映像構造化装置 100が送信した映像データや映像のインデックス情報等の各種情報を受信して、アンテナ 22を介して映像出力装置 20や、図示しない携帯電話、携帯端末等の通信機器に送信する機能も備えている。

[0045] 映像構造化装置 100は、撮像装置 14あるいは映像出力装置 20が出力した映像信号を後述する映像入力部又は映像信号入力部を介して受け取り、映像信号から時系列のフレーム画像を抽出し、テロップなどの文字列部分を含んでいるフレーム画像を特定するフレーム識別情報と、そのフレーム画像内に占める文字列部分の位置若しくは範囲に関する文字列の位置を特定する文字列位置情報とを関連付けたインデックス情報を生成する機能を有する。ここでのフレーム識別情報は、例えば、時刻情報、カウンタ情報、ページ情報を含んでいる。そして、映像構造化装置 100は、この生成したインデックス情報を、通信網 30若しくは無線などの通信手段を介して、他の通信機器に出力する。また、撮像装置 14は、マイクロホンなどを内蔵して音声信号を出力ことが可能なものであってもよい。

[0046] また映像構造化装置 100は、生成したインデックス情報を映像構造化装置 100内に設られている記録部や記録媒体に記録する機能を備えている。さらに、映像構造化装置 100は、生成したインデックス情報に含まれるフレーム識別情報と文字列の位置を特定する文字列位置情報とに基づいて、フレーム画像に含まれる文字列部分の画像を抽出してインデックスリスト表示用の表示データを生成する機能も備えている。文字列部分の画像には、文字列表示や文字列画像などが含まれる。この表示データは、映像構造ィ匕装置 100から表示装置 172に出力され、これによつて利用者に対してインデックスリスト表示を行うことができる。

[0047] この映像構造化システムでは、利用者が、文字列表示又は文字列画像等を含むィンデッタスリスト表示を閲覧して、キーボードやマウス等の入力装置 170を介してその利用者の所望の文字列表示又は文字列画像等を選択すると、その文字列表示等と関連付けられているフレーム識別情報情報等に基づいてそのフレーム画像を含む画像ファイルを読み出される。その結果、この映像構造化システムでは、そのフレームの位置から再生を開始することができる。

[0048] 図 2は、上述したような構成を有する、本発明の第 1の実施形態の映像構造化装置を示している。図 2に示す映像構造化装置 200は、デジタル化された映像データ、又は映像信号を入力として、フレーム画像又は時系列のフレーム画像とその個々のフレーム画像を識別するためのフレーム識別情報と映像識別情報とを出力する映像入力部 210と、映像入力部 210からフレーム画像又は時系列のフレーム画像が入力され、そのフレーム画像中に文字列が存在するか否かを判断して文字列が存在すると判断した場合にはその文字列が存在する文字列存在フレーム画像のフレーム識別情報とそのフレーム画像内における文字列の座標値等の文字列位置情報とを出力する文字列抽出部 212と、文字列存在フレーム画像と文字列位置情報とフレーム識別情報とを関連付けたインデックス情報を第 1のインデックスファイルとして蓄積するとともに、映像データを蓄積する映像情報蓄積部 216と、蓄積された第 1のインデックスファイルを読み出して、文字列が存在するフレーム画像、又は文字列位置情報に対応した文字列画像を表示装置 172に対して出力する構造情報呈示部 218と、を備えている。ここで映像信号には、 RGB信号やコンポジット映像信号等が含まれる。

[0049] この構成において、映像入力部 210は、デジタルィ匕された映像データ、又は RGB 信号やコンポジット映像信号等の映像信号を受け取ると、その映像全体を識別する映像識別情報と、デジタルィヒした映像データと、映像データにおける各フレーム画像を再生する際にフレーム画像を識別するためフレーム識別情報とを映像情報蓄積部 216に出力する機能を有する。さらに映像入力部 210は、これらの映像データや映像信号を受け取ったときに、入力した映像信号からフレーム画像又は時系列のフレーム画像を生成するとともに、個々のフレーム画像を個別に識別するためのフレーム識別情報を付して、その映像全体を識別する映像識別情報と、個々のフレーム画像又は時系列のフレーム画像とを文字列抽出部 212に出力する機能も備えている。

[0050] 文字列抽出部 212は、映像入力部 210から、映像が記録されているファイル名やプログラムタイトル等の映像識別情報と、フレーム画像と、その第 2フレーム識別情報とが入力され、入力されたフレーム画像中に文字列が存在するかどうかを判断し、入力されたフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するためフレーム識別情報と、そのフレーム画像の中に存在する文字列にっレ、ての文字列位置情報とをインデックス情報として映像情報蓄積部 216に対して出力する。文字列存在フレーム画像とは、文字列が存在するものとして検出されたフレーム画像のことであるが、ここでは、必要に応じて、そのようなフレーム画像を縮小したサムネイル画像などであってもよい。文字列位置情報は、例えば、検出された文字列がフレーム画像中においてどこに位置するかを示す座標値によって構成される。構造情報呈示部 218は、このように取得されたインデックス情報に基づいて、画像による文字列表示を利用者に呈示する。

[0051] 本実施形態においてフレーム識別情報は、いずれも個々のフレーム画像を識別するためのものである。これらのフレーム識別情報として、撮影時刻に関する情報、フレーム画像番号、又はカウンタ情報等の情報を用いてもよい。また、時間情報として、同期再生のための時間情報 PTS (Presentation Time Stamp)や DTS (Decodi ng Time Stamp)、基準時間情報 SCR (System Clock Reference)等の時間情報を用いるようにしてもょレ、。

[0052] 文字列抽出部 212は、先ず、映像入力部 210から、映像識別情報と、第 1のフレーム画像と、その個々のフレーム画像を識別するためのフレーム識別情報とを入力して、そのフレーム画像中に文字列が存在するか否かを判断する。次に、そのフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するためのフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを、第 1のインデックス情報として映像情報蓄積部 216に出力する。このとき、文字列が存在する特定のフレーム画像は、同一の文字列が存在するフレーム画像が複数ある場合には、これらの同一の文字列が存在するフレーム画像のうち、最初のフレーム画像であることが好ましい。なお、フレーム画像中に文字列が存在しない場合には、文字列抽出部 212は、フレーム識別情報及び文字列位置情報の出力を行わない。

[0053] そして、文字列抽出部 212は、 2番目のフレーム画像について、そのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレーム画像を特定するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを出力する。文字列抽出部 212は、以降の各フレーム画像に対し、順次、この処理を繰り返す。

[0054] ここで、文字列抽出部 212において文字列を抽出する処理の一例について説明する。文字列抽出部 212は、まず、入力されたフレーム画像を微分して微分画像を生成する。微分画像の各画素値を既定のしきい値で二値化し、得られる二値画像を水平、垂直方向に射影して、画素に関するヒストグラムを生成することで射影パターンを得る。

[0055] 次に、文字列抽出部 212は、射影パターンが既定値以上の値を持つ連続領域を、文字列候補領域として定める。このとき、連続領域の大きさが既定値に満たなレ、ものは、ノイズとして文字領域候補から除外してもよい。そして、射影パターンに基づいて定めた各文字列候補領域に対してレイアウト解析処理を適用することで、最終的な文字列位置情報を生成することができる。

[0056] レイアウト解析処理の例として、例えば 1998年の「IAPR workshop on Docu ment analysis 3 3 61113」の予稿集406ぺージから415ぺージに記載の「00( 11111 ent layout analysis by extended split detection methodjなどの手法を用いることができる。このレイアウト解析処理では、文字以外の画像領域を抽出し、それらの位置を境界として領域分割を行って部分領域に分割する。これを部分領域に再帰的に適用することで、最終的に文字列の位置情報を、例えば画像中の座標値等として、取得することができる。

[0057] なお、文字以外の多くのノイズが背景の映像から過抽出されてしまうことにより、文字列候補領域にノイズが残ることが予想されるが、上記のレイアウト解析方法を用いることによって、これらのノイズは、文字列以外の領域として再帰処理の途中で消去される。したがって、ここで述べた方法によれば、文字列のみを抽出することができる。文字列位置情報は、 1つの文字列を最小包囲する矩形を表わす情報としてもよいし、複数の矩形を合わせた形状を表わす情報としてもよい。

[0058] 図 3は、例えば映像識別情報が「ABC. MPGjである映像ファイルをデコードして得た時系列のフレーム画像と、そのフレーム画像に含まれる文字列を表した図である

[0059] 映像入力部 210が映像ファイル「ABC. MPG」をデコードすると、図に示すように、 1又は複数枚のフレーム画像が得られる。映像入力部 210に対して RGB信号又は Y C信号 (コンポジット信号)等の映像信号を入力した場合には、時系列のフレーム画像を数値化することによって、やはり図 3に示すような 1又は複数枚のフレーム画像を得ること力 Sできる。

[0060] 文字列抽出部 212は、映像入力部 210から、ファイル「ABC. MPG」の映像識別情報と、個々のフレーム画像と、その個々のフレーム画像を識別するフレーム識別情報とを受け取って、これらフレーム画像中に文字列が存在するか否力、を判断する。図示した例では、映像識別情報として、映像ファイル名が使用されているが、電子番組表（EPG)のプログラムタイトルなどを用いることもできる。フレーム識別情報としては、図示した例では、撮影時刻情報が用いられている。以下、図 3に示すような一連のフレーム画像が入力された場合を例にあげて、図 2に示した映像構造ィ匕装置 200での処理を説明する。

[0061] この例では、撮影時刻 104 (1 : 23 : 14， 33)のフレーム画像 101に、「撮像中に含まれる文字列」という文字列 103が存在するので、文字列抽出部 212は、映像全体を識別する映像識別情報「ABC. MPG」と、必要に応じて縮小したフレーム画像 101 の映像データと、文字列が存在する文字列存在フレーム画像 101を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標 PalOl (120， 400) 及び Pbl01 (600, 450)力なる文字列位置情報とを、インデックス情報として映像情報蓄積部 216に出力する。文字列存在フレーム画像 101を識別するフレーム識別情報としては、例えば、ファイル名「ABC_01231433. JPG」を用いることができる。

[0062] 図 3に示す例での文字列の座標系としては、フレーム画像の左上の画素を原点にした座標系が用いられている。ここでは、文字列を最小に包囲する矩形の左上の頂点の座標値を Paと定義し、文字列を最小に包囲する矩形の右下の頂点の座標値を Pbと定義している。

[0063] 同様に、撮影時刻 105 (2 : 54 : 04' 67)のフレーム画像 102には、「文字列」という文字列 106が存在するので、文字列抽出部 212は、映像全体を識別する映像識別情報「ABC. MPG」と、必要に応じて縮小したフレーム画像 102の映像データと、文字列存在フレーム画像 102を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標 Pal02 (20, 100)及び Pbl02 (120, 150)からなる文字列位置情報とを、インデックス情報として映像情報蓄積部 216に出力する。ここでのフレーム識別情報としては、例えば、ファイル名「ABC— 02540467. JPG」が使用される。

[0064] 図 4は、図 3に示した映像ファイルに基づいて文字列抽出部 212が出力するインデックス情報の一例を示している。図 4に示すように、文字列抽出部 212が出力するィンデッタス情報には、映像ファイルを識別する映像識別情報「ABC. MPG」と、文字列が存在するフレーム画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の文字列位置情報とが含まれている。フレーム識別情報は、例えばファイル名「ABC— 01231433. JPG」等であり、文字列位置情報は、例えば、座標 Pal01 (120, 400)及び Pbl01 (600, 450)等である。

[0065] 映像情報蓄積部 216は、文字列抽出部 212が出力した映像識別情報と、文字列が存在する文字列存在フレーム画像と、その文字列存在フレーム画像を識別するフレーム識別情報と、その文字列位置情報とを関連付けた第 1のインデックス情報とを、第 1のインデックスファイルとして蓄積する。また映像情報蓄積部 216は、映像入力部 210が出力した映像識別情報、映像データ及びフレーム識別情報を映像データとして蓄積する。

[0066] 図 5は、図 4に示したインデックス情報を含む第 1のインデックスファイルの一例を示す図である。

[0067] 図示するように、第 1のインデックスファイル（INDEX01. XML)には、図 4に示した映像ファイル「ABC. MPG」の 1又は複数のインデックス情報とともに、他の映像ファィル (例えば「DEF. MPG」など）のインデックス情報もまとめて記載してある。なお、 1のインアツクスフアイノレとしては、 XML、extensiDle markup languageノ等によるデータベース構造を有するものに限定されるものではなぐ HTML (hypertext markup language)等による表示用のファイル形式のものや、その他のファイル形式のものを用いることができる。

[0068] 構造情報呈示部 218は、映像情報蓄積部 216が蓄積したインデックスファイルを読み出してインデックスリスト表示情報を生成し、表示装置 172に出力する。表示装置 1 72は、図 6に示すようなインデックスリスト表示を行って利用者に通知する。図 6は、ィンデッタスリスト表示の一例を示してレ、る。

[0069] 図 6に示すようにインデックスリスト表示には、インデックスリスト表示の題名 120と、映像ファイルを識別する映像識別情報表示欄 122と、文字列が存在する文字列存在フレーム画像を識別するための、撮影時刻等のフレーム識別情報丄 24と、フレーム識別情報とフレーム画像の映像データと文字列位置情報とを用いてフレーム画像から文字列が存在する範囲を切り出した画像による文字列表示 126とが表示されている。文字列表示 126は、利用者所望の順序で表示するようにしてもよいし、利用者所望の位置に表示するようにしてもよい。また、利用者所望の時間間隔でインデックスリストの表示を行うようにしてもょレ、。

[0070] なお利用者は、マウス又はキーボード等の入力装置 170を操作することにより、所望の文字列表示 126や、撮影時刻等の再生ポイント情報等を選択することが可能である。再生ポイント情報は、映像をどこから再生するかを示す情報であり、フレーム識別情報で表わされるものである。もし利用者が所望の文字列表示 126等を選択して映像の再生ポイントを指定した場合には、選択された映像識別情報の映像フアイノレが読み出され、対応するフレーム識別情報 124で特定されるフレーム画像以降の映像が表示装置 172に表示される。ここに示す例では、再生ポイント情報として撮影時刻が用いられている。

[0071] 図 7は、本発明の第 2の実施形態の映像構造化装置における信号処理系の構成を示している。図 7に示す映像構造化装置は、コンピュータシステムにインストールされたプログラムがコンピュータシステムのハードウェア資源を制御することによって実現されるものである。そして、この映像構造化装置では、映像が入力したときに、この入力した映像のフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、必要に応じて縮小したサムネイル等の文字列存在フレーム画像と、文字列が存在する特定の文字列存在フレーム画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス情報として出力することが可能となっている。

[0072] 映像構造化装置 950は、被写体像を受光面に結像させて光電変換してその映像信号を出力する撮像装置 14から映像信号が入力されるものである。映像構造化装置 950は、入力映像信号を記録用の映像データに変換する画像処理部 951と、撮像装置 14が集音した音声信号が入力されて記録用の音声データ又は映像データに変換する音声処理部 955と、通信網 30に対して映像データ、音声データ、又はその他の各種情報の入出力を行う送受信部 965と、無線の通信網に対して映像データ、音声データ、又はその他の各種情報の送受信を行うアンテナ 20及び送受信部 968 とを備えている。

[0073] さらに映像構造ィヒ装置 950は、圧縮伸張部 953と、記録媒体装着部 978と、記録媒体インタフェース 979と、入力インタフェース 971と、表示インタフェース 973と、情幸艮処理咅 980と、メモリ 981と、記録咅 984と、カレンダ B寺計 990とを備えてレ、る。

[0074] 圧縮伸張部 953は、映像データ又は音声データに対し、 MPEG (motion pictur e expert group)に代表される手法で映像を圧縮制御したり、圧縮した映像を伸張展開制御する。さらに圧縮伸張部 953は、映像データに対して、 JPEG (joint pic ture expert group)に代表される手法で画像を圧縮制御したり、圧縮した画像を伸張展開制御する処理を行う。

[0075] 記録媒体装着部 978は、記録媒体 977を着脱可能に装着するものであり、記録媒体インタフェース 979は、記録媒体 977に対して各種の情報を記録したり読み出したりするためのものである。記録媒体 977は、メモリーカード等の半導体や、 DVD、 CD 等に代表される光記録媒体、磁気記録媒体等の着脱可能な記録媒体である。

[0076] 入力インタフェース 971は、インデックスリスト表示の開始若しくは終了、映像フアイルの選択、文字列表示又は文字列画像の選択等の各種指示を入力するために用いられる、キーボード、マウス等の入力装置 170に対して情報の送受信を行う。また、表示インタフェース 973は、画像や文字等の情報を表示する表示装置 172に表示用の画像信号を出力する。

[0077] 情報処理部 980は、例えば CPUによって構成されるものであって、映像信号の入力処理、映像信号からフレーム画像やフレーム識別情報を生成する処理、フレーム画像中に文字列が存在するか否かの判断処理、文字列位置情報の生成処理、各種情報の関連付け処理、フレーム画像の中から文字列が存在する範囲を切り出す処理

、その他映像構造化装置 950全体の制御を行う処理などを実行する。メモリ 981は、プログラム実行時の作業領域として用いられる。記録部 984は、映像構造化装置 95 0が実行する処理プログラムや各種定数、ネットワーク上の通信機器と通信接続する際のアドレス、ダイヤルアップ電話番号、属性情報、 URL (Uniform Resource L ocators)、ゲートウェイ情報、 DNS (Domain Name System)等の各種情報を記録するハードディスク等によって構成されている。カレンダ時計は、時刻を刻むものである。

[0078] この映像構造化装置 950において、情報処理部 980とその周辺の回路とはバス 99 9で接続されており、相互に高速な情報の伝達を行うことが可能となっている。そして情報処理部 980におレ、て動作する処理プログラムの指示に基づレ、て、情報処理部 9 80は、これらの周辺の回路を制御することができる。

[0079] なお、上記の映像構造化装置 950は、映像情報の構造化に関する処理能力を備えた専用の装置であってもよい。あるいは映像構造化装置 950として、ビデオレコーダ、ビデオカメラ、デジタルスチルカメラ、カメラを搭載した携帯電話機、 PHS (Perso nal Handyphone Systemノ、 PDA (Personal Data Assistance, Personal Digital Assistants :個人向け携帯型情報通信機器）、パーソナルコンピュータ等の汎用的な処理装置を用いるようにしてもょレ、。

[0080] ここで、画像処理部 951、送受信部 965、 968、記録媒体インタフェース 979、記録部 984等は、それぞれ映像信号入力部として機能し得るものであり、デジタル化された映像データ、又は RGB信号やコンポジット映像信号等の映像信号を受け取ることが可能となっている。なお、送受信部 968に対してテレビビジョンチューナーの機能を持たせることにより、外部の機器から映像信号を映像構造化装置 950に入力することも可能である。

[0081] 液晶表示装置又は CRT (陰極線管）等の表示装置 172は、文字列画像や認識文字歹 U、画像、文字、インデックスリスト表示等の各種情報を表示し、これらの情報を利用者に通知するために用いられている。スピーカ等の音声出力装置 956は、発音処理部 957が出力する音声信号に基づいて、映像中に文字列が存在する旨の情報を音声によって利用者に伝えるために用いられる。

[0082] 情報処理部 980は、入力した映像信号から、映像のフレーム画像と、そのフレーム画像を識別するフレーム識別情報とを生成する機能と、生成したフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレーム画像の中に存在する文字列の座標値等の文字列位置情報を生成する機能と、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出して文字列画像を生成する機能と、を備えている。

[0083] 次に、図 7に示した映像構造ィ匕装置における処理について、図 8のフローチャートを用いて説明する。

[0084] 利用者から映像構造化処理の開始指示が入力された場合、映像出力装置 20から映像信号が出力された場合、映像構造ィ匕装置 950のカレンダ時計 980に対して設定した映像構造化処理の開始時刻が経過した場合、あるいは、その他映像構造ィ匕処理の開始が指示された場合には、映像構造化装置 950の情報処理部 980が実施する処理は、「映像構造化処理」（ボックス S1200)に移行する。そして、情報処理部 980は、映像出力装置 20や撮像装置 14から映像信号が送信されて来るのを待ち受ける処理を行う。

[0085] 「映像出力処理」（ボックス S 1202)において、映像出力装置 20や撮像装置 14等が、 RGB, YC、 MPEGあるいはその他のフォーマットによる映像信号を出力すると、映像構造化装置 950の画像入力部 951、送受信部 965又は送受信部 968などは、「映像入力処理」（ボックス S1210)によってこれらの映像信号を受け取り、デジタル化した時系列の映像データをバス 999を介して情報処理部 980、圧縮伸張部 953、メモリ 981などに出力する。

[0086] 映像出力装置 20や撮像装置 14などから RGB又は YC等の映像信号が入力した場合には、画像処理部 951に、 RGBの映像信号や YCのコンポジット映像信号等が入力する。画像処理部 951は、映像データの各フレーム画像を再生する際にフレーム画像を識別するフレーム識別情報を付して、デジタルィ匕した時系列の映像データを情報処理部 980、圧縮伸張部 953、メモリ 981等にバス 999を介して出力する。同様に、映像出力装置 20や撮像装置 14が音声信号を出力した場合には、音声処理部 9 55にその音声信号が入力し、音声処理部 955は、バス 999を介し、デジタル化した音声データを映像データと関連付けて情報処理部 980、圧縮伸張部 953、メモリ 98 1等に出力する。

[0087] 次に情報処理部 980は、画像処理部 951が出力した時系列の画像データに対してその映像全体を識別する映像識別情報を付与し、時系列の画像データに対して圧縮伸張部 953によって MPEG等の規格に基づいた圧縮処理（エンコード処理）を行う。この状態で情報処理部 980は、映像全体を識別する映像識別情報と、デジタル化した時系列の映像データと、映像データの各フレーム画像を再生する際にフレーム画像を識別するフレーム識別情報とを関連付けて管理してレ、る。映像全体を識別する映像識別情報としては、例えば、映像が記録されているファイル名やプロダラムタイトルなどが用いられる。

[0088] 一方、映像出力装置 20や撮像装置 14から MPEG等の映像信号が入力した場合には、画像処理部 951は、入力した映像データを情報処理部 980、圧縮伸張部 953 、メモリ 981等にバス 999を介して出力する。また、映像出力装置 20から MPEG等で符号化された映像データが入力した場合には、送受信部 965又は送受信部 968は、入力した映像データをバス 999を介して情報処理部 980、圧縮伸張部 953、メモリ 981等に出力する。

[0089] 次に情報処理部 980は、取得した MPEG等による映像データを圧縮伸張部 953 に転送して伸張処理（デコード処理）を行なわせ、時系列の画像データを取得する。この状態で情報処理部 980は、映像識別情報と、時系列の映像データと、映像データの各フレーム画像を再生する際にフレーム画像を識別するフレーム識別情報とを関連付けて管理している。上記の場合と同様に、個々のフレーム画像を識別するフレーム識別情報として、撮影時刻に関する情報、フレーム画像番号、又はカウンタ情報等の情報を用いてもよい。また、時間情報として、同期再生のための時間情報 PT S (Presentation Ί ime stamp)や DTS (Decoding Time Stamp)、 φ時間情報 SCR (System Clock Reference)等の時間情報を用いるようにしてもよい。

[0090] 次の「文字列抽出処理」（ボックス S 1212)において、情報処理部 980は、バス 999 を介し、メモリ 981又は圧縮伸張部 953から、映像識別情報と、第 1のフレーム画像と、その個々のフレーム画像を識別するフレーム識別情報とを受け取り、そのフレーム画像中に文字列が存在するか否かを判断する。ここでフレーム画像中に文字列が存在すると判断した場合には、情報処理部 980は、その映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを第 1のインデックス情報として、メモリ 981又は記録部 984に記録する。ここで文字列存在フレーム画像は、必要に応じて縮小したサムネイル画像などであってもよい。文字列が存在する特定のフレーム画像は、複数のフレーム画像に同一の文字列が存在する場合には、そのような複数のフレーム画像における最初のフレーム画像であることが好ましい。なお、フレーム画像中に文字列が存在しないと判断した場合には、フレーム識別情報及び文字列位置情報の記録は行われない。

[0091] そして、情報処理部 980は、 2番目以降の各フレーム画像について、順次、そのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、その文字列が存在する文字列存在フレーム画像を特定するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを記録する。

[0092] 図 9は、文字列抽出処理（ボックス S1212)における具体的な処理の一例を示している。

[0093] 情報処理部 980が実行する処理が図 8の「文字列抽出処理」（ボックス S1212)に進むと、図 9に示す一連の処理が開始される。ます、ステップ S1260において文字列抽出処理が開始し、情報処理部 980は、ステップ S1262において、映像識別情報と、第 n番目のフレーム画像 (Fn)と、そのフレーム画像 (Fn)を識別するフレーム識別情報とを受け取って、これらをメモリ 981又は記録部 984に一時的に格納する処理を行う。そして、情報処理部 980は、ステップ S1264において、文字列を抽出する対象となるフレーム画像が存在するか否力を判断する。もし、全ての画像データに対して文字列を抽出する処理が既に終了していて、新たなフレーム画像が存在しない場合には、ステップ S1266において文字列抽出処理が終了し、情報処理部 980は、図 8 に示す処理ルーチンに戻って、文字列抽出処理の次の処理を実行する。一方、情報処理部 980は、文字列を抽出する新たなフレーム画像が存在すると判断した場合には、ステップ S1268において、文字列を抽出するフレーム画像を Fcごとに間引くために Fn/Fcを計算して、その結果が整数であるか否かを判断する。ここで Fcは自然数の定数であるとする。もし FnZFcの値が整数でないと判断した場合には、情報処理部 980は、ステップ S1262に戻って、次の番号 Fn+ 1のフレーム画像を受け取る。これに対しステップ S1268において Fn/Fcの値が整数であると判断した場合には、情報処理部 980は、ステップ S1270において、微分画像生成処理を実行する。微分画像生成処理では、情報処理部 980は、ステップ S1262において入力されたフレーム画像を微分して、微分画像を生成し、この微分画像をメモリ 981又は記録部 984 に一時的に格納する。

[0094] 次に、情報処理部 980は、ステップ S 1272において、微分画像二値化処理を実行する。微分画像二値化処理では、情報処理部 980は、 S 1270において生成した微分画像と二値化のためのしきい値とをメモリ 981又は記録部 984から読み出して、微分画像の各画素値をそのしきい値を用いて二値化し、この二値化後の画像データをメモリ 981又は記録部 984に一時的に格納する。

[0095] 次に、情報処理部 980は、ステップ S 1274において、射影パターン生成処理を実行する。射影パターン生成処理では、情報処理部 980は、二値化した画像データをメモリ 981又は記録部 984から読み出して、二値化後の画像を水平方向及び垂直方向にそれぞれ射影し、画素に関するヒストグラムを生成することで、射影パターンを得る。次に、情報処理部 980は、この射影パターンにおいて既定値以上の値を持つ連続領域を文字列候補領域として定める。このとき、連続領域の大きさが既定値に満たないものは、ノイズとして文字列領域候補力除外してもよい。各文字列候補領域に対して、レイアウト解析処理を適用することで、情報処理部 980は、最終的な文字列位置情報を生成する。

[0096] 第 1の実施形態において説明した場合と同様に、レイアウト解析処理としては、 199 8年の「IAPR workshop on Document analysis systemsjの予根集 406へ ~~ンら 415ページに己載の「Document layout analysis by extended spl it detection method」などの手法を用いることができる。このレイアウト解析処理では、文字以外の画像領域を抽出し、それらの位置を境界として領域分割を行って部分領域に分割する。これを部分領域に再帰的に適用することで、最終的に文字列の位置情報を、例えば画像中の座標値等として、取得すること力 Sできる。この文字列の位置情報は、例えば図 3に示した Pal01、 PblOl等の座標値である。

[0097] 次に、ステップ S1276におレ、て、情報処理部 980はステップ S 1274において取得した文字列候補領域について、文字認識処理を実施する。その後、情報処理部 980 は、ステップ S 1278において、文字認識処理の結果から、文字列候補領域に文字列が存在するか否力、を判断する。もし、文字列が存在しないと判断した場合には、情報処理部 980は、ステップ S1262に戻って、次の番号 Fn+ 1のフレーム画像を受け取る。一方、もし文字列が存在すると判断した場合には、情報処理部 980は、ステップ S 1280において、文字列候補領域から認識された文字列が、前回文字認識処理を行つたときに存在した文字列と同一か否かを判断する。

[0098] ステップ S1280において前回の文字列と異なる文字列でないと判断した場合、すなわち同一の文字列であると判断した場合には、情報処理部 980は、ステップ S 126 2に戻って、次の番号 Fn+ 1のフレーム画像を受け取る。これに対し、前回の文字列と今回認識した文字列とが異なると判断した場合には、情報処理部 980は、ステップ S 1284において、インデックス情報記録処理を実行する。インデックス情報記録処理において情報処理部 980は、ステップ S1262において入力された映像識別情報と、文字列が存在してレ、るフレーム画像すなわち文字列存在フレーム画像と、その文字列が存在するフレーム画像を識別するフレーム識別情報と、ステップ S 1274において取得した文字列位置情報とを、それぞれ関連付けたインデックス情報としてメモリ 9 81又は記録部 984に一時的に記録する。このときの映像識別情報「ABC. MPG」をデコードして得られる時系列のフレーム画像と、そのフレーム画像に含まれる文字列と、フレーム画像を識別するフレーム識別情報と、文字列位置情報との例は、図 3に示されている。また、図 3に示した映像ファイルのインデックス情報は、例えば図 4に示す形式の情報となる。インデックス情報記録処理が終了すると、情報処理部 980は、ステップ S1262に戻って、次の番号 Fn+ 1のフレーム画像を受け取る処理を実行する。

[0099] 上述した文字列抽出処理において、文字列が存在する文字列存在フレーム画像は、記録容量を減少させるとともにインデックスリスト表示の際に表示しやすいように、必要に応じて縮小したサムネイル画像として記録してもよい。

[0100] 図 8に戻って、文字列抽出処理（ボックス S1212)が終了すると、情報処理部 980 は「映像情報蓄積処理」（ボックス S1216)を実行する。映像情報蓄積処理では、情報処理部 980は、メモリ 981又は記録部 984等に一時的に格納した映像識別情報と、文字列が存在するフレーム画像と、そのフレーム画像を識別するフレーム識別情報と、その文字列位置情報とを関連付けた第 1のインデックス情報を読み出して、第 1のインデックスファイルとして蓄積する。第 1のインデックスファイルの一例が図 5に示されている。

[0101] 前述の「映像出力処理」（ボックス S1202)において映像出力装置 20や撮像装置 1 4等が RGB、 YC等の映像信号を入力した場合には、情報処理部 980は、これらの映像信号をデジタル化し、圧縮伸張部 953によって MPEG等の動画ファイルに符号化し、記録部 984や記録媒体 977に記録する。また、「映像出力処理」（ボックス S12 02)において、映像出力装置 20や撮像装置 14等が、 MPEG等によって符号化された映像信号を入力した場合には、情報処理部 980は、この映像信号から記録用の動画ファイルを生成して、記録部 984や記録媒体 977に記録する。これらの動画フアイルには識別用の固有の映像識別情報が付されており、デコードした際に個々のフレーム画像を識別するためのフレーム識別情報が記録されている。映像情報の蓄積処理が終了すると、情報処理部 980は、「構造情報呈示処理」（ボックス S1218)を実行する。

[0102] 構造情報呈示処理では情報処理部 980は、記録部 984又は記録媒体 977等に記録されている第 1のインデックスファイルを読み出して、図 6に示すようなインデックスリスト表示を行うための表示ファイルを生成する。そして、第 1のインデックスファイルに記載されている文字列が存在するフレーム画像を記録部 984又は記録媒体 977等力読み出してメモリ 981に展開する。そして情報処理部 980は、文字列位置情報に基づいて、文字列が存在する文字列候補領域をフレーム画像から切り出して生成した文字列画像をインデックスリスト表示に添付する。情報処理部 980は、このようにして生成したインデックスリスト表示の表示信号を、表示インタフェース 973を介して表示装置 172に出力する。インデックスリスト表示の表示例が図 6に示されている。構造情報呈示処理が終了すると、情報処理部 980は、ステップ S1232に示す、終了指示が入力したかを判定する処理を実行する。

[0103] ステップ S1232において情報処理部 980は、利用者が入力装置 170を介して映像構造化処理の終了指示を入力したか否かの判断を行う。もし利用者力 Sインデックスリスト表示終了ボタンを選択するなどして、ボックス S 1230で示すように終了指示入力を行った場合には、情報処理部 980は、終了指示の入力がなされたと判断し、ステツプ S1240において、映像構造化処理を終了させる。一方、利用者から終了指示の入力がなされていないと判断した場合には、情報処理部 980は、映像入力処理（ボッタス S1210)に戻る。これによつて、映像構造化処理が継続して実行される。

[0104] なお、図 6に示すインデックスリスト表示を利用者が閲覧し、利用者がマウス又はキ一ボード等の入力装置 170を操作して所望の文字列表示 126あるいは文字列画像等を選択して映像の再生ポイントを指定した場合には、情報処理部 980は、選択された映像識別情報の映像ファイルを記録部 984等から読み出してデコードし、対応するフレーム識別情報 124で特定されるフレーム画像以降の映像を表示装置 172に出力して表示させる。図 6に示した例では、フレーム識別情報は、撮影時刻で表わされている。

[0105] 次に、本発明の第 3の実施形態の映像構造化装置について、図 10を参照して説明する。図 10に示す映像構造化装置 300では、文字列抽出部 312には、映像が記録されているファイル名やプログラムタイトル等の映像識別情報と、フレーム画像と、その個々のフレーム画像を識別するフレーム識別情報とが、映像入力部 310から入力される。そして、文字列抽出部 312は、この入力されたフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス情報として映像情報蓄積部 316に出力する。文字列存在フレーム画像は、必要に応じて、縮小されたサムネイル画像などとされる。構造情報呈示部 318は文字列の画像を利用者に呈示する。利用者が、映像の再生ポイントを示す文字列表示 126等を指定した場合には、映像再生部 320は、利用者から指定された再生ポイント以降の映像を再生する。

[0106] 第 3の実施形態の映像構造化装置 300での映像入力部 310及び文字列抽出部 3 12が実行する処理は、図 2に示した映像構造化装置 200における映像入力部 210 及び文字列抽出部 212が実行する処理とそれぞれ同一であるので、ここでは詳細な説明を省略する。

[0107] この映像構造化装置 300において、映像情報蓄積部 316は、文字列抽出部 312 が出力した映像識別情報と、文字列が存在する文字列存在フレーム画像と、そのフレーム画像を識別するフレーム識別情報と、その文字列位置情報とを関連付けた第

1のインデックス情報を、第 1のインデックスファイルとして蓄積する。ここで映像情報蓄積部 316は、映像入力部 310が出力した映像識別情報、映像データ、及びフレーム識別情報を映像データとして蓄積する。

[0108] 構造情報呈示部 318は、映像情報蓄積部 316が蓄積したインデックスファイルを読み出してインデックスリスト表示情報を生成し、インデックスリスト表示を表示装置 172 に出力する。表示装置 172は、図 6に示すようなインデックスリスト表示を行って利用者に通知する。

[0109] 利用者が、マウスやキーボード等の入力装置 170を操作して所望の文字列表示 12 6又は撮影時刻等の再生開始ポイント情報を選択すると、構造情報呈示部 318は、再生開始ポイントに対応する映像識別情報とフレーム識別情報とを選び出して、映像情報蓄積部 316に出力する。映像情報蓄積部 316は、構造情報呈示部 318から映像識別情報とフレーム識別情報とを取得すると、取得した映像情報に対応する映像データを読み出して、フレーム識別情報とともに映像再生部 320に出力する。映像再生部 320が、映像ファイルをデコードして時系列のフレーム画像を取得することが可能な構成である場合には、映像情報蓄積部 316は、映像ファイルとフレーム識別情報とを映像再生部 320に出力する。映像再生部 320は、取得した映像ファイルをデコードして、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ボイント以降の映像を呈示する。映像再生部 320が、時系列のフレーム画像を取得して表示する構成である場合には、映像情報蓄積部 316は、フレーム識別情報以降の時系列のフレーム画像を映像再生部 320に出力する。この場合は、映像再生部 320 は、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の映像を呈示する。

[0110] 図 10に示す映像構造化装置 300では、インデックスとなる画像による文字列表示 1 26が文字列存在フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを表示する場合と異なり、文字列表示 126が映像の内容と一致しないという現象が起きる可能性が小さくなる。したがって、利用者は、文字列表示 126が表示されているインデックスリスト表示を閲覧することで映像の内容を一覧することが可能となり、映像の頭出しを容易に行うことが可能となる。

[0111] 図 11は、本発明の第 4の実施形態の映像構造化装置を示している。この映像構造化装置 400では、文字列抽出部 412には、映像が記録されているファイル名やプログラムタイトル等の映像識別情報と、フレーム画像と、その個々のフレーム画像を識別するフレーム識別情報とが、映像入力部 410から入力される。そして、文字列抽出部 412は、入力されたフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス情報として映像情報蓄積部 416に出力するとともに、文字列存在フレーム画像と、フレーム識別情報と、文字列位置情報とを文字列認識部 414にも出力する。文字列存在フレーム画像は、必要に応じて、縮小されたサムネイル画像などとされる。

[0112] 文字列認識部 414は、文字列存在フレーム画像から文字列位置情報で特定される範囲を画像データとして切り出し、切り出された画像データに含まれる文字歹 IJを認識文字列すなわち文字コードとして抽出して、その認識文字列を映像情報蓄積部 416 に出力する。構造情報呈示部 418は、文字列の画像又は認識文字列を利用者に呈示する。

[0113] 第 4の実施形態の映像構造化装置 400での映像入力部 410の処理、及び文字列抽出部 412が映像情報蓄積部 416に対してインデックス情報を出力するまでの処理は、図 2に示した映像構造化装置 200における映像入力部 210での処理、及び文字列抽出部 212での処理とそれぞれ同一であるので、ここでは詳細な説明を省略する

[0114] 文字列抽出部 412は、フレーム画像中に文字列が存在すると判断した場合には、第 1のインデックス情報を映像情報蓄積部 416に出力するとともに、文字列存在フレーム画像とフレーム識別情報と文字列位置情報とを文字列認識部 414に出力する。なお、フレーム画像中に文字列が存在しないと判断した場合には、文字列抽出部 41 2は、文字列認識部 414に対して文字列存在フレーム画像、フレーム識別情報及び文字列位置情報は出力することはしない。

[0115] 文字列認識部 414では、文字列存在フレーム画像内で、文字列位置情報で特定される範囲内に存在する文字列の画像データと、文字列認識用の辞書データとを用いて、文字列が認識文字歹 1J (文字コード）として抽出される。ここでの文字列認識処理として、例えば特開平 3— 141484号公報に記載されている文字切り出し方法及びその装置、あるいは特開 2001— 34709号公報に記載されている高速認識検索システム及びそれに用いる認識検索高速化方法などを利用することが可能である。この文字列認識処理において、文字列認識の結果の認識信頼度を算出するようにしてもよレ、。文字列の認識信頼度としては、例えば、文字列画像中の個々の文字に対応する文字認識における尤度値や、距離値の平均値の逆数などを用いることができる。

[0116] 文字列の認識処理が終了すると、次に文字列認識部 414は、得られた認識文字列と、その文字列が存在するフレーム画像のフレーム識別情報と、文字列位置情報と、文字列認識の結果得られた文字列の認識信頼度とを映像情報蓄積部 416に出力する。映像情報蓄積部 416は、文字列抽出部 412及び文字列認識部 414が出力した、映像識別情報と、文字列が存在する文字列存在フレーム画像と、そのフレーム画像を識別するフレーム識別情報と、その文字列位置情報と、認識文字列、認識信頼度とを関連付けた第 2のインデックス情報を、第 2のインデックスファイルとして蓄積する。また映像情報蓄積部 416は、映像入力部 410が出力した映像識別情報、映像データ、及びフレーム識別情報を映像データとして蓄積する。

[0117] 図 12は、第 2のインデックスファイルの一例を示している。第 2のインデックスフアイノレ（INDEX02. XML)には、図 5に示した第 1のインデックスファイルに記載した情報に加えて、認識文字列とその文字列の認識信頼度とがフレーム識別情報と関連付けて蓄積されている。ここでは、フレーム識別情報として、撮影時刻の情報が用いられレヽる。

[0118] 構造情報呈示部 418は、映像情報蓄積部 416が蓄積した第 2のデッタスファイルを読み出してインデックスリスト表示情報を生成し、表示装置 172に出力する。表示装置 172は、図 13に示すようなインデックスリスト表示を行って利用者に通知する。図 1 3は、インデックスリスト表示の一例を示している。 [0119] 図 13に示すように、インデックスリスト表示には、インデックスリスト表示の題名 120と、映像ファイルを識別する映像識別情報表示欄 122と、文字列が存在するフレーム画像を識別する撮影時刻等のフレーム識別情報 124と、フレーム画像の映像データと文字列位置情報とを用いてフレーム画像から文字列が存在する範囲を切り出した画像による文字列表示 126と、認識文字列 138とが示されている。

[0120] なお利用者は、マウス又はキーボード等の入力装置 170を操作することにより、所望の文字列表示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択することが可能となっている。利用者が所望の文字列表示 126等を選択して映像の再生ポイントを指定した場合に、選択された映像識別情報の映像ファイルを読み出して、対応するフレーム識別情報 124で特定されるフレーム画像以降の映像が表示装置 172に表示されるようにすることも可能である。ここで示す例では、再生ポイント情報として撮影時刻を利用している。

[0121] 認識文字列 138は、必ず表示するようにしてもよいが、認識信頼度が所定のしきい値 Θ 1以下の場合、例えば認識信頼度がしきい値 Θ 1 = 50%以下の場合には、表示されないようにしてもよい。また、認識信頼度が所定のしきい値 Θ 2以上の場合、例えば、認識信頼度がしきい値 Θ 2 = 90%以上の場合には、認識文字列 138のみを表示して、画像による文字列表示 126を表示しなレ、ようにしてもょレ、。

[0122] 本実施形態によれば、インデックスとなる画像による文字列表示 126が文字列存在フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを表示する場合と異なり、文字列表示 126が映像の内容と一致しなレ、とレ、う現象が起きる可能性が小さくなる。したがって、利用者は、インデックスリスト表示を閲覧することで映像の内容を一覧することが可能となり、映像の頭出しを容易に行うことができる。また、文字列認識の結果の信頼度に応じて、画像による文字列表示と認識文字列の表示との間で表示方法を制御できるようにしたので、利用者は、認識文字列を信頼してインデックスを選択することができ、利用者が映像を検索する際の作業効率を改善すること力 Sできる。

[0123] 図 14は、本発明の第 5の実施形態の映像構造化装置を示している。この映像構造化装置 500では、文字列抽出部 512には、映像が記録されているファイル名やプログラムタイトル等の映像識別情報と、フレーム画像と、その個々のフレーム画像を識別するフレーム識別情報とが、映像入力部 510から入力される。そして、文字列抽出部 512は、入力されたフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、フレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス情報として映像情報蓄積部 516に出力するとともに、文字列存在フレーム画像と、フレーム識別情報と、文字列位置情報とを文字列認識部 514に出力する。文字列認識部 514 は、文字列存在フレーム画像内の文字列位置情報で特定される範囲内に存在する文字列の画像データから、その文字列を認識文字列 (文字コード）として抽出して、その認識文字列と、フレーム識別情報と、文字列位置情報と、認識信頼度とを映像情報蓄積部 516に出力する。

[0124] 構造情報呈示部 518は、文字列の画像又は認識文字列を利用者に呈示する。そして構造情報呈示部 518は、利用者が所望の文字列表示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択した場合には、映像情報蓄積部 516から利用者の選択に基づいて映像識別情報の映像ファイルを読み出して、対応するフレーム識別情報 124で特定されるフレーム画像以降の映像を表示装置 172に表示させる

[0125] 第 5の実施形態の映像構造化装置 500での映像入力部 510、文字列抽出部 512 及び文字列認識部 514が実施する処理と、映像情報蓄積部 516が情報を蓄積する処理と、構造情報呈示部 518が構造情報を呈示するまでの一部の処理は、図 11に示した映像構造化装置 400における、映像入力部 410、文字列抽出部 412、文字列認識部 514、映像情報蓄積部 416及び構造情報呈示部 418が実施する処理と同一であるので、ここでは詳細な説明を省略する。

[0126] 映像情報蓄積部 516は、文字列抽出部 512及び文字列認識部 514が出力した、映像識別情報と、文字列存在フレーム画像と、そのフレーム画像を識別するフレーム識別情報と、その文字列位置情報と、認識文字列と、認識信頼度とを関連付けた第 2のインデックス情報を、第 2のインデックスファイルとして蓄積する。また映像情報蓄積部 516は、映像入力部 510が出力した映像識別情報、映像データ及びフレーム識別情報を映像データとして蓄積する。

[0127] 構造情報呈示部 518は、映像情報蓄積部 516が蓄積した第 2のデッタスファイルを読み出してインデックスリスト表示情報を生成し、インデックスリスト表示を表示装置 1 72に出力する。表示装置 172は、図 13に示すようなインデックスリスト表示を行って利用者に通知する。

[0128] 利用者は、マウス又はキーボード等の入力装置 170を操作して、所望の文字列表示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択して映像の再生開始ポイントを指定することができる。利用者が映像の再生開始ポイントを指定すると、構造情報呈示部 518は、再生開始ポイントに対応する映像識別情報とフレーム識別情報とを選び出して、映像情報蓄積部 516に出力する。映像情報蓄積部 516 は、映像識別情報とフレーム識別情報とを構造情報呈示部 518から取得すると、取得した映像情報に対応する映像データを読み出して、フレーム識別情報とともに映像再生部 520に出力する。映像再生部 520が、映像ファイルをデコードして時系列のフレーム画像を取得することが可能な構成である場合には、映像情報蓄積部 516 は、映像ファイルとフレーム識別情報とを映像再生部 520に出力する。この場合には映像再生部 520は、取得した映像ファイルをデコードして、フレーム識別情報以降のフレーム画像を表示し、利用者に再生ポイント以降の映像を呈示する。映像再生部 5 20が、時系列のフレーム画像を取得して表示する構成である場合には、映像情報蓄積部 516は、フレーム識別情報以降の時系列のフレーム画像を映像再生部 520に出力する。この場合、映像再生部 520は、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の映像を呈示する。

[0129] 本実施形態によれば、インデックスとなる画像による文字列表示 126が文字列存在フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを表示する場合と異なり、文字列表示 126が映像の内容と一致しなレ、とレ、う現象が起きる可能性が小さくなる。利用者は、インデックスリスト表示を閲覧することで映像の内容を一覧することができ、映像の頭出しを容易に行うことができる。また、文字列認識の結果の信頼度に応じて、画像による文字列表示と認識文字列の表示との間で表示方法を制御できるようにしたので、利用者は、認識文字列を信頼してインデックスを選択することができ、利用者が映像を検索する際の作業効率を改善することができる。

[0130] 図 15は、本発明の第 6の実施形態の映像構造化装置を示している。この映像構造化装置 600では、文字列抽出部 612は、映像入力部 610からフレーム画像が入力したときに、この入力したフレーム画像中に文字列が存在するかどうかを判断する。そして文字列抽出部 612は、文字列が存在すると判断した場合には、その旨と、文字列存在フレーム画像と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを構造情報呈示部 618に出力する。すると構造情報呈示部 618は、文字列位置情報に対応するフレーム画像若しくは文字列画像を即時に表示する力、、又は、フレーム画像中に文字列が存在する旨の情報を表示して利用者に通知する。

[0131] 映像入力部 610は、デジタル化された映像データ、又は RGB信号やコンポジット映像信号等の映像信号を入力して、表示用の映像データを構造情報呈示部 618に出力することができる構成となっている。また映像入力部 610は、デジタル化された映像データ、又は RGB信号やコンポジット映像信号等の映像信号を入力して、入力した映像信号からフレーム画像を生成して文字列抽出部 612に出力する。

[0132] 文字列抽出部 612は、映像入力部 610からフレーム画像が入力されて、そのフレーム画像中に文字列が存在するか否かを判断する。そして次に、文字列抽出部 612 は、そのフレーム画像中に文字列が存在すると判断した場合には、その旨と、文字列存在フレーム画像と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを構造情報呈示部 618に出力する。

[0133] 構造情報呈示部 618は、通常は、映像入力部 610から入力した映像データに基づいて表示映像を生成して、その映像を表示装置 172に出力して利用者に呈示している。構造情報呈示部 618は、文字列抽出部 612から、フレーム画像中に文字列が存在する旨と、文字列存在フレーム画像と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを取得すると、フレーム画像中に文字列が存在する旨の情報を表示して利用者に通知する。フレーム画像中に文字列が存在する旨の通知は、音声により文字列出現の情報を報知することによって行ってもよいし、図 6に示したようなインデックスリスト表示内に新たな文字列表示を行って、インデックスリスト表示を更新するようにしてもよい。また、構造情報呈示部 618は、フレーム画像中に文字列が存在することを判断したタイミングで、表示装置 172の起動スィッチをオンにして利用者に注意を促してもよい。構造情報呈示部 618は、フレーム画像中に文字列が存在することを判断した場合に、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信してもよレヽ。

[0134] 図 16は、本発明の第 7の実施形態の映像構造化装置を示している。図 16に示す製造構造化装置 700では、文字列抽出部 712は、映像入力部 710からフレーム画像と、その個々のフレーム画像を識別するフレーム識別情報とを受け取って、この入力したフレーム画像中に文字列が存在すると判断した場合には、その文字列存在フレーム画像と、フレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを第 ₃のインデックス情報として構造情報呈示部 718に出力するとともに、文字列存在フレーム画像と、フレーム識別情報と、文字列位置情報とを文字列認識部 714に出力する。文字列認識部 714は、文字列存在フレーム画像内の文字列位置情報で特定される範囲内に存在する文字列の画像データから、その文字列を認識文字列（文字コード）として抽出して、その認識文字列と、フレーム識別情報と、文字列位置情報と、認識信頼度とを構造情報呈示部 718に出力する。

[0135] 第 7の実施形態の映像構造化装置 700は、映像入力部 710は、デジタル化された映像データ、又は RGB信号やコンポジット映像信号等の映像信号を入力として、デジタル化した映像データと、映像データの各フレーム画像を再生する際にフレーム画像を識別するフレーム識別情報とを構造情報呈示部 718に出力することができる。映像入力部 710は、このようなデジタル化された映像データ又は映像信号を入力して、入力した映像信号からフレーム画像又は時系列のフレーム画像を生成し、そのフレーム画像と、フレーム識別情報とを文字列抽出部 712に出力する。

[0136] 文字列抽出部 712は、まず、映像入力部 710から第 1のフレーム画像を受け取って、そのフレーム画像中に文字列が存在するか否力、を判断する。そして次に、そのフレーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを第 3のインデックス情報として構造情報呈示部 718に出力する。同時に、文字列抽出部 712は、文字列存在フレーム画像とフレーム識別情報と文字列位置情報とを文字列認識部 714に出力する。ここで文字列存在フレーム画像は、必要に応じて縮小したサムネイル画像などであってもよレ、。文字列が存在する特定のフレーム画像は、複数のフレーム画像に同一の文字列が存在する場合には、そのような複数のフレーム画像における最初のフレーム画像であることが好ましい。なお、フレーム画像中に文字列が存在しない場合には、文字列抽出部 712は、文字列存在フレーム画像、フレーム識別情報及び文字列位置情報を出力しない。

[0137] そして、文字列抽出部 212は、 2番目のフレーム画像について、そのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断した場合には、その文字列が存在する文字列存在フレーム画像と、その文字列存在フレーム画像を特定するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを出力する。文字列抽出部 212は、以降のフレーム画像について、順次、この処理を繰り返す。

[0138] 文字列認識部 714では、文字列認識用の辞書データとを用いて、文字列存在フレーム画像内の文字列位置情報で特定される範囲内に存在する文字列の画像データから、その画像データに含まれる文字歹 1Jを認識文字歹 1J (文字コード）として抽出する。

[0139] この第 7の実施形態においても、上述した各実施形態の場合と同様に、文字列認識処理として、例えば特開平 3— 141484号公報に記載されている文字切り出し方法及びその装置、あるいは特開 2001— 34709号公報に記載されている高速認識検索システム及びそれに用レ、る認識検索高速化方法などを利用することが可能である。この文字列認識処理においても、文字列認識の結果の認識信頼度を算出するようにしてもよい。文字列の認識信頼度としては、例えば、文字列画像中の個々の文字に対応する文字認識における尤度値や、距離値の平均値の逆数などを用いることができる。文字列の認識を終えると、文字列認識部 714は、得られた認識文字列と、文字列位置情報と、その文字列が存在するフレーム画像のフレーム識別情報と、文字列認識の結果得られる文字列の認識信頼度とを構造情報呈示部 718に出力する。

[0140] 構造情報呈示部 718は、通常は、映像入力部 710から入力した映像データに基づいて表示映像を生成して、その映像を表示装置 172に出力して利用者に呈示している。構造情報呈示部 718は、文字列抽出部 712及び文字列認識部 714から、フレーム画像中に文字列が存在する旨と、文字列存在フレーム画像と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報と、フレーム識別情報などとを含む第 3のインデックス情報等を取得すると、フレーム画像中に文字列が存在する旨の情報を表示して利用者に通知するとともに、図 13に示したインデックスリスト表示内に新たな文字列表示 126又は認識文字列 138の表示を行って、インデックスリスト表示を更新する。

[0141] 認識文字列 138は、必ず表示するようにしてもよいが、認識信頼度が所定のしきい値 Θ 1以下の場合、例えば認識信頼度がしきレ、値 Θ 1 = 50%以下の場合には表示されないようにしてもよい。また、認識信頼度が所定のしきい値 Θ 2以上の場合、例えば、認識信頼度がしきい値 Θ 2 = 90%以上の場合には、認識文字列 138のみを表示して、画像による文字列表示 126を表示しなレ、ようにしてもょレ、。

[0142] なお本実施形態では、フレーム画像中に文字列が存在する旨の通知は、文字列出現の情報を音声で報知することによって行ってもよい。また構造情報提示部 718は、フレーム画像中に文字列が存在することを判断したタイミングで、表示装置 172の起動スィッチをオンにして利用者に注意を促すようにしてもよい。

[0143] 利用者に通知する情報として、予め利用者が設定した特定の文字歹 IJを利用者に対して通知することも可能である。その場合には、利用者が通知において使用してもらレ、たい文字列を記録部等に予め登録しておく。構造情報呈示部 718は、フレーム画像中に文字列が存在する旨の情報を文字列抽出部 712から取得した場合に、その予め記録部等に登録しておいた文字列をその記録部等から読み出して、表示装置 1 72に表示する。さらに、認識信頼度に応じて、利用者に対するフレーム画像中に文字列が存在することの通知の形態や、通知内容を変更するようにしてもよい。

[0144] 利用者への情報の通知の形態として、予め設定した特定の文字列が映像中に存在する場合に、利用者に対して文字列の存在を通知するようにしてもよい。この場合には、構造情報呈示部 718は、文字列認識部 712から認識文字列を取得すると、取得した認識文字列が予め設定されているキーワード群に含まれる文字列であるか否かを判断する。そして構造情報呈示部 718は、取得した認識文字列が予め設定されているキーワードに含まれる文字列であると判断した場合には、映像中に文字列が存在する旨の情報を表示装置 172に表示し、あるいは音声出力装置から音声を出力することにより、予め設定した文字列が出現した旨の通知を利用者に対して行う。

[0145] さらに構造情報呈示部 718は、フレーム画像中に文字列が存在すると判断した場合には、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信するようにしてもよレ、。文字列認識部 714が認識して出力した認識文字列をこの電子メールに、埋め込むことにより、利用者に認識文字列そのものを通知するようにしてもよい。この場合、認識文字列の埋め込みは、文字列を認識した際の認識信頼度に応じて実行するようにしてもよい。例えば、認識信頼度が 50%以上の場合にのみ認識文字列を電子メールに坦め込めばよい。

[0146] 図 17は、本発明の第 8の実施形態の映像構造化装置を示している。この映像構造化装置 800は、図 11に示した映像構造化装置 400の機能と、図 16に示した映像構造化装置 700の機能とをともに備えるものである。ここで構造情報呈示部 818は、利用者に対し、インデックスリスト表示を行うとともに、文字列存在の通知を行うことが可能な構成となっている。

[0147] 映像構造化装置 800の映像入力部 810は、図 11に示した映像構造化装置 400における映像入力部 410の機能と図 16に示した映像構造ィ匕装置 700における映像入力部 710の機能とを備えたものである。そして映像構造化装置 800の文字列抽出部 812は、図 11に示した文字列抽出部 412の機能と図 16に示した文字列抽出部 712 の機能とを備え、文字列認識部 814は、図 11に示した文字列認識部 414の機能と文字列認識部 714の機能とを備えている。映像構造化装置 800の映像情報蓄積部 81 6は、図 16に示した映像情報蓄積部 716の機能を備え、構造情報呈示部 818は、図 11に示した構造情報呈示部 418の機能と図 16に示した構造情報呈示部 718の機能とを備える。

[0148] 構造情報呈示部 818は、表示装置 172に対し、図 13に示すようなインデックスリスト表示を行って、利用者に対する通知を行う。文字列抽出部 812からフレーム画像中に文字列が存在する旨の情報を取得すると、構造情報呈示部 818は、フレーム画像中に文字列が存在する旨の情報を表示して利用者に通知して、インデックスリスト表示内に新たな文字列表示 126又は認識文字列 138の表示を行って、インデックスリスト表示を更新する。

[0149] 認識文字列 138は、必ず表示するようにしてもよいが、認識信頼度が所定のしきい値 Θ 1以下の場合、例えば認識信頼度がしきレ、値 Θ 1 = 50%以下の場合には表示されないようにしてもよい。また、認識信頼度が所定のしきい値 Θ 2以上の場合、例えば、認識信頼度がしきい値 Θ 2 = 90%以上の場合には、認識文字列 138のみを表示して、画像による文字列表示 126を表示しなレ、ようにしてもょレ、。

[0150] なお本実施形態では、フレーム画像中に文字列が存在する旨の通知は、文字列出現の情報を音声で報知することによって行ってもよい。また構造情報提示部 718は、フレーム画像中に文字列が存在することを判断したタイミングで、表示装置 172の起動スィッチをオンにして利用者に注意を促すようにしてもよい。

[0151] 利用者に通知する情報として、予め設定された特定の文字列を利用者に対して通知することも可能である。その場合には、通知において使用したい文字列を記録部等に予め登録しておく。構造情報呈示部 818は、フレーム画像中に文字列が存在する旨の情報を文字列抽出部 812から取得した場合に、その予め登録しておいた文字列を記録部等から読み出して、表示装置 172に表示する。さらに、認識信頼度に応じて、利用者に対するフレーム画像中に文字列が存在することの通知の形態や、通知内容を変更するようにしてもよい。

[0152] さらに構造情報呈示部 818は、フレーム画像中に文字列が存在すると判断した場合には、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信するようにしてもよレ、。文字列認識部 814が認識して出力した認識文字列をこの電子メールに坦め込むようにしてもよレ、。この場合、認識文字列の坦め込みは、文字列を認識した際の認識信頼度に応じて実行するようにしてもよい。例えば、認識信頼度が 50%以上の場合にのみ認識文字列を電子メールに坦め込めばよい。

[0153] 図 18は、本発明の第 9の実施形態の映像構造化装置を示している。この映像構造化装置 900は、図 14に示した映像構造化装置 500の機能と、図 16に示した映像構造化装置 700の機能とをともに備えるものである。ここで映像再生部 920は、利用者が選択した再生ポイント以降の映像を表示装置 172に表示することができるように構成されている。

[0154] 映像構造化装置 900の映像入力部 910は、図 14に示した映像構造化装置 500の映像入力部 510の機能と図 16に示した映像構造ィ匕装置 700の映像入力部 710の機能とを備えたものである。そして映像構造化装置 900の文字列抽出部 912は、図 1 4に示した文字列抽出部 512の機能と図 16に示した文字列抽出部 712の機能とを備え、文字列認識部 914は、図 14に示した文字列認識部 514の機能と図 16に示した文字列認識部 714の機能とを備えている。映像構造化装置 900の映像情報蓄積部 916は、図 16に示した映像情報蓄積部 716の機能を備え、構造情報呈示部 918 は、図 14に示した構造情報呈示部 518の機能と図 16に示した構造情報呈示部 718 の機能とを備える。

[0155] 構造情報呈示部 918は、表示装置 172に対し、図 13に示すようなインデックスリスト表示を行って、利用者に対する通知を行う。文字列抽出部 912からフレーム画像中に文字列が存在する旨の情報を取得すると、構造情報呈示部 918は、フレーム画像中に文字列が存在する旨の情報を表示することにより利用者に通知し、さらに、インデッタスリスト表示内に新たな文字列表示 126又は認識文字列 138の表示を行って、インデックスリスト表示を更新する。

[0156] フレーム画像中に文字列が存在する旨の通知は、文字列出現の情報を音声で報知することによって行ってもよい。また構造情報提示部 718は、フレーム画像中に文字列が存在することを判断したタイミングで、表示装置 172の起動スィッチをオンにして利用者に注意を促すようにしてもよい。

[0157] 利用者に通知する情報として、予め設定された特定の文字列を利用者に対して通知することも可能である。その場合には、通知において使用したい文字列を記録部等に予め登録しておく。構造情報呈示部 918は、フレーム画像中に文字列が存在する旨の情報を文字列抽出部 912から取得した場合に、その予め登録しておいた文字列を記録部等から読み出して、表示装置 172に表示する。さらに、認識信頼度に応じて、利用者に対するフレーム画像中に文字列が存在することの通知の形態や、通知内容を変更するようにしてもよい。

[0158] さらに構造情報呈示部 818は、フレーム画像中に文字列が存在すると判断した場合には、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信するようにしてもよレ、。文字列認識部 814が認識して出力した認識文字列をこの電子メールに坦め込むようにしてもよい。この場合、認識文字列の坦め込みは、文字列を認識した際の認識信頼度に応じて実行するようにしてもょレ、。

[0159] この実施形態では、利用者は、表示装置 172に表示されているインデックスリスト表示を閲覧し、マウス又はキーボード等の入力装置 170を操作して、所望の文字列表示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択して映像の再生開始ポイントを指定することができる。利用者が入力装置 170を操作して映像の再生開始ポイントを指定すると、構造情報呈示部 918は、再生開始ポイントに対応する映像識別情報とフレーム識別情報とを選び出して、映像情報蓄積部 916に出力する。映像情報蓄積部 916は、構造情報呈示部 918から映像識別情報とフレーム識別情報とを取得すると、取得した映像情報に対応する映像データを読み出して、フレーム識別情報とともに映像再生部 920に出力する。映像再生部 920が、映像ファイルをデコードして時系列のフレーム画像を取得することが可能な構成である場合には、映像情報蓄積部 916は、映像ファイルとフレーム識別情報とを映像再生部 920に出力する。この場合には映像再生部 920は、取得した映像ファイルをデコードして、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の映像を呈示する。また、映像再生部 920が、時系列のフレーム画像を取得して表示する構成である場合には、映像情報蓄積部 916は、フレーム識別情報以降の時系列のフレーム画像を映像再生部 920に出力する。この場合、映像再生部 920は、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の映像を呈示する。

[0160] 本実施形態においても、利用者への情報の通知の形態として、予め設定した特定の文字列が映像中に存在する場合に、利用者に対して文字列の存在を通知するようにしてもよい。この場合には、構造情報呈示部 918は、文字列認識部 912から認識文字列を取得すると、取得した認識文字列が予め設定されてレ、るキーワード群に含まれる文字列であるか否力、を判断する。そして構造情報呈示部 918は、取得した認識文字列が予め設定されているキーワードに含まれる文字列であると判断した場合には、映像中に文字列が存在する旨の情報を表示装置 172に表示し、あるいは音声出力装置から音声を出力することにより、予め設定した文字列が出現した旨の通知を利用者に対して行う。

[0161] この実施形態によれば、インデックスとなる画像による文字列表示 126が文字列存在フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを表示する場合と異なり、文字列表示 126が映像の内容と一致しなレ、とレ、う現象が起きる可能性が小さくなる。利用者は、インデックスリスト表示を閲覧することで映像の内容を一覧することができ、映像の頭出しを容易に行うことができる。また、文字列認識の結果の信頼度に応じて表示方法を制御できるようにしたので、利用者は、認識文字列を信頼してインデックスの選択ができ、利用者が映像を検索する際の作業効率を改善すること力 Sできる。

[0162] 本発明では、映像が逐次入力されてくるような場合において、その映像上に文字列もしくは所望の文字列が出現した場合、そのような文字列が存在する旨を利用者に通知する。そのため、本発明を用いることにより、映像上に特定の文字列が出現するのを監視する必要がある場合に、対象とする文字列が存在する旨を即座に利用者に通知することが可能となる。

[0163] 本発明におけるインデックスリスト表示の例は図 6及び図 13に示している力インデックスリスト表示はこれらのものに限定されるものではない。

[0164] 図 19は、インデックスリスト表示の他の例を示している。図 6及び図 13に示したインデッタスリスト表示では、文字列位置情報に基づいて、文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出された画像による文字列表示をフレーム識別情報と関連付けて表示装置に表示させているが、図 19に示したものは、文字列存在フレーム画像 128を縮小してインデックスリスト表示に表示している。

[0165] 図 20は、インデックスリスト表示のさらに別の例を示している。図 13に示すインデッタスリスト表示では、画像による文字列表示 126と認識文字列 138とを同時に表示しているが、図 20に示すものでは、認識信頼度に応じて、画像による文字列表示 126 と認識文字列 139による表示とを切り替えている。

[0166] ここで、画像による文字列表示と認識文字列による表示との切り替えについて説明する。ここでは、認識信頼度に応じて表示方法を切り替える例を説明する。一例として、認識文字列を表示するか否力を判断するためのしきい値 Θ 1を 50%とし、認識文字列について強調表示するか否力を判断するためのしきい値 Θ 3を 80%とし、画像による文字列表示をするか否力、を判断するしきい値 Θ 2を 90%に設定した場合について説明する。

[0167] 各しきい値を上記のように設定したときに、文字列「映像中に含まれる文字列」の認識信頼度が 40%と算出されていた場合には、認識信頼度の値が Θ 1 ( = 50%)以下であるので、図 20に示すように、「映像中に含まれる文字列」の表示は、画像による文字列表示 126のみが表示され、認識文字列は表示されない。また、文字列「文字歹 IJ」の認識信頼度が 95 %と算出されてレ、た場合には、認識信頼度の値が Θ 2 ( 90 % )以上、かつ、 03 (80%)以上であるので、図 20に示すように、「文字歹 1 の表示は、認識文字列 139のみが強調表示され、画像による文字列表示は表示されない。なお、強調表示では、太字で表示するようにしてもよいし、注目度の高い色彩や模様を用レ、て表示するようにしてもょレ、。

[0168] このように、文字列認識の結果の認識信頼度に応じて、画像による文字列表示と、認識文字列の表示との間で表示方法を制御できるようにしたので、利用者は認識文字列を信頼してインデックスの選択ができ、利用者が映像を検索する際の作業効率を改善すること力 Sできる。

[0169] 以上説明した本発明の第 1及び第 3〜第 9の実施形態の映像構造化装置は、第 2 の実施形態の映像構造化装置と同様に、上述した各処理を実行するためのプロダラムをコンピュータシステムにインストールことによつても実現できるものである。したがつて、第 1〜第 9の実施形態の映像構造化装置を実現するためのコンピュータプロダラムも、本発明の範疇に含まれるものである。

産業上の利用可能性

[0170] 本発明によれば、文字列の存在に基づいた映像検索用のインデックスリスト表示を行うことによって、利用者による映像の検索と映像の頭出しを容易にすることが可能となる。本発明は、ビデオレコーダ、ビデオカメラ、デジタルスチルカメラ等のシステムに適用すること力 Sできる。さらに本発明は、いずれもカメラを搭載した携帯電話機、 PHS (Personal Handyphone System)、ノーソナノレコンピュータ、 PDA (Personal Data Assistance, Personal Digital Assistants：個人向け携帯型情報通信機器)等の、撮像受像機能を有する携帯端末装置やその他のシステムに適用することができる。

Claims

請求の範囲

[1] 映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレーム識別情報とを出力する映像入力手段と、

前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つて当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と前記文字列位置情報とを取得し、取得した情報をそれぞれ関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、

前記映像情報蓄積手段から前記インデックスファイルを読み出し、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像による文字列表示を、前記文字列存在フレーム画像を識別するフレーム識別情報と関連付けて表示手段に表示させる構造情報呈示手段と、を有する、映像構造化装置。

[2] 映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレーム識別情報と、前記映像信号の映像データとを出力する映像入力手段と、

前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つて当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、構造情報呈示手段と、

前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と前記文字列位置情報とを取得して関連付けてインデックスファイルに蓄積し、前記映像入力手段から前記映像データ及びフレーム識別情報とを取得して関連付けて蓄積し、前記構造情報呈示手段から前記フレーム識別情報を取得したときには該構造情報呈示手段から取得したフレーム識別情報と関連付けられて記録されている映像データを読み出して、前記構造情報呈示手段から取得したフレーム識別情報に対応するフレーム画像以降の映像データを出力する映像情報蓄積手段と、

前記映像情報蓄積手段が出力する映像データを取得して表示手段に出力して表示させる映像再生手段と、

を有し、

前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイルを読み出して、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像による文字列表示を前記表示手段に出力して表示させ、利用者から当該文字列表示を選択する旨の情報が入力されると、該選択した文字列表示と関連付けられているフレーム識別情報を前記映像情報蓄積手段に出力する、映像構造化装置。

映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレーム識別情報とを出力する映像入力手段と、

前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つて当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と前記文字列位置情報とを取得し、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像に対して文字列認識処理を行って文字コードによる認識文字列を取得して、当該認識文字列と前記フレーム識別情報と前記文字列位置情報とを出力する文字列認識手段と、前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と前記文字列位置情報とを取得し、前記文字列認識手段から前記認識文字列と前記フレーム識別情報と前記文字列位置情報とを取得し、これらの取得した画像及び情報を関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、

前記映像情報蓄積手段から前記インデックスファイルを読み出し、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像による文字列表示と前記認識文字列とを、前記文字列存在フレーム画像を識別するフレーム識別情報と関連付けて表示手段に表示させることが可能な構造情報呈示手段と、

を備える、映像構造化装置。

映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレーム識別情報と、前記映像信号の映像データとを出力する映像入力手段と、

前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つて当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と前記文字列位置情報とを取得し、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像に対して文字列認識処理を行って文字コードによる認識文字列を取得して、当該認識文字列と前記フレーム識別情報と前記文字列位置情報とを出力する文字列認識手段と、構造情報呈示手段と、

前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と前記文字列位置情報とを取得し、前記文字列認識手段から前記認識文字列と前記フレーム識別情報と前記文字列位置情報とを取得し、これらの取得した画像及び情報を関連付けてインデックスファイルに蓄積し、前記映像入力手段から取得した前記映像データと前記フレーム識別情報とを関連付けて蓄積し、前記構造情報呈示手段力前記フレーム識別情報を取得したときには該構造情報呈示手段から取得したフレーム識別情報と関連付けて記録されている映像データを読み出して、前記構造情報呈示手段から取得したフレーム識別情報に対応するフレーム画像以降の映像データを出力する映像情報蓄積手段と、

前記映像情報蓄積手段が出力する映像データを取得し、該取得した映像データを表示手段に出力して表示させる映像再生手段と、

を有し、

前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイルを読み出して、前記文字列位置情報に基づいて前記文字列存在フレーム画像から前記文字列が存在する範囲を切り出し、前記切り出した画像による文字列表示及び前記認識文字列を前記表示手段に出力して表示させることが可能であり、利用者から前記表示された文字列表示又は認識文字歹' Jを選択する旨の情報が入力されると、その選択された文字列表示又は認識文字列と関連付けられている前記フレーム識別情報を映像情報蓄積手段に出力する、映像構造化装置。

[5] 前記文字列認識手段は、文字列の認識信頼度を算出して前記映像情報蓄積手段に出力し、

前記映像情報蓄積手段は、前記文字列認識手段から取得した前記認識信頼度を、前記文字列位置情報と関連付けて前記インデックスファイルに蓄積し、

前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイルを読み出して取得した認識信頼度と所定のしきい値と比較を行って文字列認識の信頼度が所定のしきい値より大きいと判断した場合には、画像による文字列表示を表示させずに前記認識文字列を前記表示手段に出力して表示させる、

請求項 3又は 4に記載の映像構造化装置。

[6] 前記文字列認識手段は、文字列の認識信頼度を算出して前記映像情報蓄積手段に出力し、

前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイルを読み出して取得した認識信頼度と所定のしきい値と比較を行って文字列認識の信頼度が所定のしきい値より小さいと判断した場合には、前記認識文字列の表示をさせずに画像による文字列表示を前記表示手段に出力して表示させる、

請求項 3又は 4に記載の映像構造化装置。

[7] 映像信号を受け取って、映像のフレーム画像を出力する映像入力手段と、

前記映像入力手段から前記フレーム画像を受け取って当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、文字列が存在する旨の情報を出力する文字列抽出手段と、

前記文字列抽出手段から前記文字列が存在する旨の情報を取得した場合には、前記映像中に文字列が存在する旨の情報を表示手段に表示させ及び Z又は音声出力手段から音声を出力させる構造情報呈示手段と、

を有する映像構造化装置。

[8] 映像信号を受け取って、映像のフレーム画像を出力する映像入力手段と、

前記映像入力手段からフレーム画像を受け取って当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、該文字列位置情報を出力する文字列抽出手段と前記文字列抽出手段から前記文字列位置情報を取得した場合には、前記映像中に文字列が存在する旨の情報を表示手段に表示させ及び/又は音声出力手段から音声を出力させる構造情報呈示手段と、

を有する映像構造化装置。

[9] 映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレーム識別情報とを出力する映像入力手段と、

前記映像入力手段から前記フレーム画像を受け取って当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、前記文字列が存在する文字列存在フレーム画像と、前記フレーム画像の中に存在する文字列についての文字列位置情報とを出力する文字列抽出手段と、前記文字列抽出手段から前記文字列存在フレーム画像と前記文字列位置情報とを取得し、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像に対して文字列認識処理を行つて文字コードによる認識文字列を取得して、当該認識文字列と前記文字列位置情報とを出力する文字列認識手段と、

前記文字列認識手段から前記認識文字列を取得し、前記取得した認識文字列が予め設定されているキーワード群に含まれる文字列であるか否力、を判断し、前記取得した認識文字列が予め設定されているキーワードに含まれる文字列であると判断した場合には、前記映像中に文字列が存在する旨の情報を表示手段に表示させ及び/又は音声出力手段から音声を出力させる構造情報呈示手段と、

を有する映像構造化装置。

[10] 前記構造情報提示手段は、さらに、新たな文字列位置情報が存在すると判断した場合には、前記映像中に文字列が存在する旨の情報を前記表示手段に表示させ及び/又は音声出力手段から音声を出力させる、請求項 3又は 4に記載の映像構造ィ匕装置。

[11] 動画の映像信号を入力する段階と、

前記映像信号から、映像のフレーム画像と、そのフレーム画像を識別するフレーム識別情報とを生成する段階と、

前記フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成する段階と、

前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出して文字列画像を生成する段階と、

前記文字列画像を表示装置に出力する段階と、

を有する映像構造化方法。

[12] コンピュータに、

入力映像信号から、映像のフレーム画像と、そのフレーム画像を識別するフレーム識別情報とを生成する処理と、

前記フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成する処理と、

前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出して文字列画像を生成する処理と、

前記文字列画像を表示装置に出力する処理と、

を実行させるプログラム。