WO2011105607A1

WO2011105607A1 - 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体

Info

Publication number: WO2011105607A1
Application number: PCT/JP2011/054527
Authority: WO
Inventors: 宗益子
Original assignee: 楽天株式会社
Priority date: 2010-02-26
Filing date: 2011-02-28
Publication date: 2011-09-01
Also published as: CN102763104B; US20130188872A1; CN102782680B; EP2541441A4; CN102763104A; JPWO2011105608A1; JP2012073999A; JPWO2011105607A1; JP5075291B2; US8825670B2; EP2541440A1; JP5647916B2; EP2541440A4; JP2013041602A; CN102782680A; EP2541441A1; US8949267B2; JP5259876B2; WO2011105608A1; US20120323901A1

Abstract

　複雑なレイアウト構造や飾り文字等を含む画像に対しても適切に検索を行う。　画像検索装置１０は、検索対象の画像を格納する画像データベース１１と、画像における文字列が含まれる文字列領域を抽出する文字列領域抽出部１３と、文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識部１４と、複数の文字候補を文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶部１５と、検索用のキーワードを入力する検索キーワード入力部１７と、検索用のキーワードを構成する各文字が文字列を構成する複数の文字候補の何れかに一致するか否かを検索する検索部１８と、検索の結果を出力する出力部１９とを備える。

Description

情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体

　本発明は、画像検索に係る情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体に関する。

　画像に対する検索方法として、例えば、画像に含まれる文字列をテキスト化してテキスト化された文字列に対して検索を行うことが考えられる。画像に含まれる文字列をテキスト化する技術として、例えば、特許文献１に記載されたような文字認識を行うものがある。

特開２００１－３３７９９３号公報

　しかしながら、上述した従来技術では、複雑なレイアウト構造や飾り文字（フォント）を含んだ画像に対しては、多くの認識誤りを含む場合がある。

　本発明は、上記を鑑みてなされたものであり、複雑なレイアウト構造や飾り文字等を含む画像に対しても適切に検索を行うことができる情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体を提供することを目的とする。

　上記目的を達成するために、本発明に係る情報処理装置は、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、文字候補認識手段によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、を備えることを特徴とする。

　本発明に係る情報処理装置では、画像に含まれる文字列の各文字を複数の文字候補として認識して記憶する。そして、記憶した情報が用いられて、検索用のキーワードの各文字が、文字候補の何れかに一致するかが判定されることによって検索される。従って、本発明に係る情報処理装置では、検索用のキーワードの各文字が文字候補と一致していれば、画像に含まれる文字列の中にキーワードが含まれると判断されることが可能である。これにより、本発明に係る情報処理装置によれば、検索対象の画像が複雑なレイアウト構造や飾り文字等を含む画像等であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、適切に検索を行うことができる。

　情報処理装置は、検索用のキーワードを入力する検索キーワード入力手段と、前記キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に前記文字候補記憶手段によって記憶された前記文字列を構成する前記複数の文字候補の何れかに一致するか否かを検索する検索手段と、前記検索手段による検索の結果を、前記文字候補記憶手段によって記憶された前記文字候補と画像との対応付けに基づいて出力する出力手段と、を更に備えることが望ましい。この構成によれば、文字候補記憶手段によって記憶された情報を用いて確実に検索を行うことができる。

　文字候補認識手段は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、文字候補記憶手段は、文字候補認識手段によって評価された正確性を示す情報に基づいて文字候補を記憶し、検索手段は、キーワードを構成する各文字が、文字候補記憶手段によって記憶された複数の文字候補の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、出力手段は、信頼性にも基づいて、検索結果を出力する、ことが望ましい。この構成によれば、画像に含まれる文字列を構成する各文字の認識の正確性に基づいて、検索の信頼性に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　検索手段は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定して、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字候補を決定することが望ましい。この構成によれば、検索用のキーワードの文字数に応じた、より適切に画像に対する検索を行うことができる。

　検索手段は、キーワードと文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、出力手段は、検索手段による検索の結果をスコア値に応じて出力する、ことが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　また、上記目的を達成するために、本発明に係る情報処理装置は、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、文字候補認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、を備えることを特徴とする。

　上記の構成のように、文字候補を組み合わせた文字列を検索用の情報として記憶することとしたとしても、検索対象の画像が複雑なレイアウト構造や飾り文字等を含む画像等であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、適切に検索を行うことができる。また、検索用のキーワードと、当該文字候補の何れかを組み合わせた文字列との一致を判断することによって検索を行うことができるので、検索処理を速くすることができる。

　情報処理装置は、検索用のキーワードを入力する検索キーワード入力手段と、キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に文字候補記憶手段によって記憶された文字列の何れかに一致するか否かを検索する検索手段と、検索手段による検索の結果を、文字候補記憶手段によって記憶された文字列と画像との対応付けに基づいて出力する出力手段と、を更に備えることが望ましい。この構成によれば、文字候補記憶手段によって記憶された情報を用いて確実に検索を行うことができる。

　文字候補認識手段は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、文字候補記憶手段は、文字候補認識手段によって評価された正確性を示す情報に基づいて文字列を記憶し、検索手段は、キーワードを構成する各文字が、文字候補記憶手段によって記憶された文字列の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、出力手段は、信頼性にも基づいて、検索結果を出力する、ことが望ましい。この構成によれば、画像に含まれる文字列を構成する各文字の認識の正確性に基づいて、検索の信頼性に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　検索手段は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定して、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字列を決定することが望ましい。この構成によれば、検索用のキーワードの文字数に応じた、より適切に画像に対する検索を行うことができる。

　検索手段は、キーワードと文字列との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、出力手段は、検索手段による検索の結果をスコア値に応じて出力する、ことが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　検索手段は、キーワード入力手段によって入力された複数のキーワードに対してスコア値を算出する、ことが望ましい。この構成によれば、複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。

　検索手段は、画像データベースに格納された画像数に対する、キーワードを含む画像数の割合に基づいて、スコア値を算出することが望ましい。この構成によれば、画像に含まれるキーワードの出現率に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　情報処理装置は、文字列領域抽出手段によって抽出された文字列領域の画像から、各文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量を算出する視覚的特徴量算出手段を更に備え、検索手段は、キーワードの各文字が当該キーワードの順に一致した文字列の文字候補が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する、ことが望ましい。この構成によれば、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量に応じて検索結果が出力される。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、この構成によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。

　画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているＷｅｂページの箇所を示す情報とを対応付けて格納し、出力手段は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているＷｅｂページの箇所を示す情報とを出力する、ことが望ましい。この構成では、検索対象となる画像のハッシュ値と当該画像が利用されているＷｅｂページの箇所を示す情報とが対応付けられて格納されており、検索結果として、検索によって得られた画像を示す情報と、当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているＷｅｂページの箇所を示す情報とが出力される。ハッシュ値は同一の画像であれば、一定の範囲内の値となるため複数のＷｅｂページの箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数のＷｅｂページの箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。

　ところで、本発明は、上記のように情報処理装置の発明として記述できる他に、以下のように情報処理方法、及び情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

　即ち、本発明に係る情報処理方法は、検索対象の画像を格納する画像データベースを備える情報処理装置による情報処理方法であって、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識ステップと、文字候補認識ステップによって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶ステップと、を含むことを特徴とする。

　また、本発明に係る記憶媒体は、一つ以上のコンピュータを、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、文字候補認識手段によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

　本発明では、検索用のキーワードの各文字が複数の文字候補と一致していれば、画像に含まれる文字列の中にキーワードが含まれると判断されることが可能である。これにより、本発明よれば、検索対象の画像が複雑なレイアウト構造や飾り文字等を含む画像等であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、適切に検索を行うことができる。

本発明の実施形態に係る情報処理装置である画像検索装置の機能構成を示す図である。画像から認識されて画像検索装置によって記憶される文字候補の例を示す表である。画像の文字列領域から文字色と背景色とを取得した例を示す図である。文字列の文字サイズ、及び文字色の明度と背景色の明度との差から文字列の視覚的特徴量を求めるための表である。検索キーワードと文字認識信頼度との関係を説明するための図である。画像検索装置から検索結果として出力されて表示された画面の例である。本発明の実施形態に係る画像検索装置で実行される処理（情報処理方法）のうち、画像検索用の情報を生成するまでの処理を示すフローチャートである。本発明の実施形態に係る画像検索装置で実行される処理（情報処理方法）のうち、画像検索を実際に行う処理を示すフローチャートである。本発明の実施形態に係る画像検索装置で実行される処理（情報処理方法）のうち、キーワードの検索処理を示すフローチャートである。文字候補数と画像内文字検索の精度との関係を示すグラフである。目視結果と検索結果との比較（Ｎ＝３０の場合）を示す表である。実験に用いたサンプル画像である。画像スコアの計算結果を示す表である。文字候補数と検索時間との関係を示すグラフである。本発明の実施形態に係る情報処理プログラムの構成を、記録媒体と共に示す図である。画像検索装置によって記憶される、画像から認識された文字候補を組み合わせた文字列の例を示す表である。

　以下、図面とともに本発明に係る情報処理装置、情報処理方法、情報処理プログラム、情報処理プログラムを記録した記録媒体及び画像検索用情報生成装置の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

　図１に本実施形態に係る情報処理装置である画像検索装置１０を示す。画像検索装置１０は、検索対象の画像に対する検索要求を受け付けて、当該検索要求に応じた検索結果を出力する装置である。本実施形態では、検索対象の画像は、サイバーモールで販売される商品の説明画像である。画像検索装置１０による画像検索の目的としては、商品の説明画像として不適切な画像がないかどうかをチェックするというものである。商品の説明画像として不適切な画像とは、例えば、健康商品や化粧品等の商品の効果を消費者に過剰に期待されるものである。上記のような検索対象及び目的から画像検索装置１０は、例えば、サイバーモールを管理する事業者によって用いられる。従って、画像検索装置１０は、図１には明示していないがサイバーモールを構成するサーバに接続する等して検索対象の画像を取得できるようになっている。

　画像検索装置１０は、管理者端末３０と接続されて互いに情報の送受信を行うことができる。画像検索装置１０は、管理者端末３０から検索対象の画像に対する検索要求を受信して、検索要求に応じた検索結果を示す情報を管理者端末３０に出力する。

　画像検索装置１０は、ＣＰＵ（Central Processing Unit）やメモリ、通信モジュール等のハードウェアを備えるサーバ装置等のコンピュータにより実現される。これらの構成要素がプログラム等のより動作することによって、後述する画像検索装置１０の機能が発揮される。また、画像検索装置１０は、複数のコンピュータからなるコンピュータシステムによって構成されていてもよい。

　管理者端末３０は、上述したサイバーモールを管理する事業者のユーザによって用いられる通信機能を有する端末であり、画像検索装置１０と情報の送受信を行うことができる。管理者端末３０は、具体的には、ＰＣ（Personal Computer）等の通信装置に相当する。

　引き続いて、画像検索装置１０の機能的な構成を説明する。図１に示すように画像検索装置１０は、画像データベース１１と、画像登録部１２と、文字列領域抽出部１３と、文字候補認識部１４と、文字候補記憶部１５と、視覚的特徴量算出部１６と、検索キーワード入力部１７と、検索部１８と、出力部１９とを備えて構成される。

　画像データベース１１は、検索対象の画像を格納（記憶）するデータベースである。画像データベース１１に格納される画像は、上述したようにサイバーモールを構成するＷｅｂサイトに掲載されている、当該サイバーモールで販売される商品の説明画像である。各画像には、画像を特定するＩＤ等の情報が付与されており、画像を特定できるようになっている。また、画像データベース１１は、同一の画像については重複して格納しない。即ち、画像データベース１１は、同一の画像を複数含まないように画像を格納する。画像データベース１１は、具体的には、画像検索装置１０が備えるメモリやハードディスク等のハードウェアによって実現される。画像データベース１１は、データベースを構成するソフトウェアによって格納する画像のデータを管理してもよいし、単にメモリやハードディスク等に画像のデータを格納するだけのものであってもよい。

　画像データベース１１は、格納する画像に対応付けて、当該画像にハッシュ関数を適用することによって得られるハッシュ値を記憶する。当該ハッシュ関数は、予め設定された特定のハッシュ関数である。同一の画像であれば、そこから得られるハッシュ値は一定の範囲内のものになる。これにより、サイバーモールにおいて同一の画像が複数のＷｅｂサイトで用いられていた場合、一つのハッシュ値で管理することができる。なお、ここでは、文字色が類似（赤とオレンジ等）している画像や文字の大きさが類似している画像等のユーザにとって同じとみなせる画像についても同一の画像であるものとしてもよい。上記のハッシュ値の一定の範囲は、同一の画像と見なせる画像に応じて適宜設定することができる。画像データベース１１は、上記のハッシュ値に、当該画像が利用されているＷｅｂページの箇所であるＷｅｂサイトを示す情報を対応付けて格納する。Ｗｅｂサイトを示す情報は、例えば、ＵＲＬ（Uniform Resource Locator）である。また、画像データベース１１は、上記のＷｅｂサイトを示す情報それぞれに数値を対応付けて格納する。この数値は、例えば、当該Ｗｅｂサイトにおける当該画像に係る商品の販売価格である。また、上記のＷｅｂサイトを示す情報それぞれには、当該Ｗｅｂサイトにおける当該商品の説明等のその他の情報が対応付けられていてもよい。上記のようなデータ構成によって、画像データベース１１は、画像と、画像が用いられているＷｅｂサイト及び当該Ｗｅｂサイトにおける当該画像に係る商品の販売価格の情報とを対応付けて記憶することができる。

　画像登録部１２は、新たに画像データベース１１に登録する画像と当該画像が利用されているＷｅｂサイトを示す情報とを入力して、それらの情報を画像データベースに格納させる画像登録手段である。画像登録部１２は、予め上述した特定のハッシュ関数を記憶しておく。画像登録部１２は、入力した画像にそのハッシュ関数を適用してハッシュ値を算出する。画像登録部１２は、画像データベース１１に格納されたハッシュ値を読み出して、算出したハッシュ値が画像データベース１１に既に格納されているハッシュ値から一定の範囲内の値であるか否かを判断する。画像登録部１２は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値であると判断された場合には、当該既に格納されているハッシュ値に当該画像が利用されているＷｅｂサイトを示す情報を対応付けて画像データベース１１に格納させる。画像登録部１２は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値でないと判断された場合には、入力した画像及びＷｅｂサイトを示す情報、並びに算出したハッシュ値を対応付けて新たに画像データベース１１に格納させる。その際、上述したように当該Ｗｅｂサイトにおける当該画像に係る商品の販売価格の情報等も合わせて登録することとしてもよい。

　画像登録部１２への、画像と当該画像が利用されているＷｅｂサイトを示す情報との入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末３０から行われる。あるいは、サイバーモールのＷｅｂサイトにおいて新たに画像が利用された場合に自動的に入力が行われることとしてもよい。

　文字列領域抽出部１３は、画像データベース１１に格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段である。文字列領域の抽出は、例えば、以下のように行われる。まず、画像内の文字を抽出するために対象画像をグレースケース画像に変換した後、判別分析法により閾値を決定し２値画像に変換する。この方法には、例えば、大津:判別および最小2 乗規準に基づく自動しきい値選定法,信学論D, Vol.63, No.4,pp.349-356(1980)に記載された方法を用いることができる。次に２値画像にラベリング処理を行い、得られた画像連結要素をピッチ、縦横比及び角度を用いて領域を連結し横方向と縦方向に並んだ文字列画像を抽出する。この方法には、例えば、芦田,永井,岡本,宮尾,山本:情景画像からの文字抽出,信学論D, Vol.J88-D2, No.9,pp.1817-1824(2005)に記載された方法を用いることができる。

　文字列領域抽出部１３は、上記のように抽出した文字列領域（の画像のデータ）を文字候補認識部１４及び視覚的特徴量算出部１６に出力する。この際、抽出した文字列領域が、何れの画像から抽出を行ったかを（抽出元の画像を）判別できるようにしておく。なお、文字列領域抽出部１３は、１つの画像から複数の文字列領域を抽出することとしてもよい。この場合、画像から抽出した文字列領域それぞれを例えば、ＩＤを付与する等として判別できるようにしておく。また、抽出される文字列領域は、画像中で領域が重複するものであってもよい。画像中において１つの箇所が、縦方向の文字列領域と、横方向の文字列領域との両方に属するものであってもよい。何れの方向に文字列を読むか明確に判別できない場合であっても、文字列の抽出漏れを防止するためである。

　文字列領域抽出部１３が文字列を抽出するタイミングは、例えば、新たに画像データベース１１に画像が格納されたタイミングである。あるいは、ユーザの操作をトリガとして抽出が行われてもよい。

　文字候補認識部１４は、文字列領域抽出部１３によって抽出されて入力された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段である。また、文字候補認識部１４は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、各文字候補の順位付けを行う。文字認識は、以下のように行われる。

　形態素解析を用いて、入力された文字列領域の画像を文字列を構成する各文字の画像に分割して、各文字の画像に対して文字認識処理を行う。文字認識は、画像から文字認識に用いる特徴量を抽出して、その特徴量と予め抽出しておいた文字候補となりえる文字の特徴量とを比較することによって行われる。文字認識に用いる特徴量は、例えば、文字の輪郭を利用した方向線素特徴を用いることができる。この方法には、例えば、孫,田原,阿曽,木村:方向線素特徴量を用いた高精度文字認識,信学論, vol.J74-D-II, No.3,pp.330-339(1991)に記載された方法を用いることができる。

　文字認識の正確性としては、例えば、特徴量のユークリッド距離の短さを用いることができる。即ち、画像から抽出した特徴量と、特徴量のユークリッド距離で近い特徴量を有する文字ほど正確性が高い文字候補とする。この文字認識の正確性を用いて、各対象文字画像に対して、文字候補に順位付けを行う。順位付けされた文字候補は、第Ｎ位までの多重化された文字候補として保持される（Ｎは、予め設定された２以上の自然数）。このように文字列を構成する各文字に対して、複数の文字候補を保持することで、文字候補誤りによる検索漏れを回避する。文字候補認識部１４は、上記のように、文字列領域から特定した文字列を構成する各文字の複数の文字候補の情報を文字候補記憶部１５に出力する。

　文字候補記憶部１５は、文字候補認識部１４によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段である。文字候補記憶部１５は、文字候補認識部１４によって評価された正確性が高い順番に各文字候補を示す情報を文字毎に画像に対するインデックスとして記憶する。この記憶は、例えば、画像検索装置１０のメモリやハードディスク等に、例えば下記のような各文字候補を示すデータ（ファイル）を格納することによって行われる。

　文字候補記憶部１５が記憶する情報の例を図２に示す。図２に示す例は、１つの文字列領域から認識される文字候補である。図２に示すように、文字候補記憶部１５が記憶する情報は、文字の順番（図２における「Ｎｏ．ｊ」）と、文字座標と、認識結果との情報がそれぞれ対応付けられたものである。文字の順番は、その文字候補が、文字列を構成する何番目の文字に相当するかを示す情報である。文字座標は、その文字候補が文字候補の特定元の画像における何れの位置にあるかを示す情報である。文字座標の情報は、画像左上を原点（０，０）とした場合の文字画像の（ｘ座標，ｙ座標，幅，高さ）を示すものである。ここで、ｘ座標及びｙ座標は、文字画像における予め設定された基準位置（例えば、文字画像の左上の画素の位置）を示すものである。文字座標の情報は、例えば、文字候補認識部１４によって取得される。

　認識結果は、各文字の文字候補を正確性が高い順番に並べたものである。ここでは、認識結果Ｃのｎ番目の文字候補第ｊ位をＣ［ｎ］［ｊ］と表現する。例えば、図２の表の認識結果ＣにおけるＣ［１］［１］、Ｃ［１］［２］及びＣ［１０］［１］は、それぞれ「そ」、「予」及び「高」となる。

　文字候補記憶部１５は、図２に示すような認識結果を示す情報を、文字候補の特定元である画像のハッシュ値等の画像を特定する情報に対応付けて記憶しておき、何れの画像から抽出されたのか判別できるようにしておく。また、１つの画像から複数の文字列領域が抽出される場合は、文字列領域のＩＤ等に対応付けて記憶しておき、何れの文字列領域から抽出されたのか判別できるようにしておく。

　文字候補記憶部１５は、文字候補認識部１４によって特定された複数の文字候補を、当該文字候補の何れかを組み合わせた文字列として、当該文字候補の特定元である画像に対応付けて記憶することとしてもよい。即ち、図２に示すような各文字について文字候補の一つを選択して文字列の順に組み合わせた文字列を記憶しておいてもよい。

　例えば、図２に示すような認識結果であった場合、その文字列は、図１６に示すようなものとなる。ここで、組み合わせられて記憶される文字列は、画像から取得された文字候補の順に連続するものではなく、部分的に文字列が抜けたものであってもよい。例えば、画像から取得された文字候補を「安全性」「の高さ」とは文字候補の順では連続していないが、そのような組み合わせであってもよい。また、文字毎に文字候補を記憶する場合であっても、上記と同様に後述する検索において必ずしも文字候補の順で一致を判断しなくてもよい。また、上記のように文字列を記憶する場合であっても、文字候補に対応する情報（文字認識の正確性の情報等）については、文字列に対応付けておき文字毎に文字候補を記憶した場合と同様に扱うことができる。

　ここで記憶される文字列は、全ての文字候補の組み合わせについて記憶しておいてもよいし、予め設定される検索キーワードとして想定される文字列に一致する組み合わせのみを記憶しておいてもよい。また、文字列の一部（例えば、図２の情報の例では「その安全性」という部分）について記憶することとしてもよい。

　視覚的特徴量算出部１６は、文字列領域抽出部１３によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ及び色の少なくとも何れかに基づく当該文字列の視覚的特徴量（saliency）を算出して記憶する視覚的特徴量算出手段である。視覚的特徴量算出部１６は、文字列領域の文字列を構成するとされた画素の明度と、文字列領域の背景を構成するとされた画素の明度との差に基づいて視覚的特徴量を算出する。視覚的特徴量算出部１６は、文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とする。より具体的には、視覚的特徴量算出部１６は、以下の処理によって文字列の視覚的特徴量を算出する。視覚的特徴量算出部１６は、算出した視覚的特徴量を文字列に対応付けて記憶する。この記憶は、例えば、画像検索装置１０のメモリやハードディスク等に情報を格納することによって行われる。

　また、視覚的特徴量算出部１６は、文字列を構成する文字毎の視覚的特徴量を算出して記憶することとしてもよい。この構成によれば、検索時に文字毎の視覚的特徴量を足し合わせて文字列の視覚的特徴量とすることができる。

　視覚的特徴量算出部１６は、文字候補認識部１４と同様に文字認識を行う。但し、視覚的特徴量算出部１６による文字の認識は、必ずしも複数の文字候補を特定するものでなくてもよい。視覚的特徴量算出部１６は、文字の抽出時に得られた文字画像領域の縦横の大きさから文字の大きさ（文字サイズ）を特定する。文字サイズは、例えば、ポイント（ｐｔ）単位で得る。

　視覚的特徴量算出部１６は、文字色と背景色とを文字画像領域に含まれる文字領域と背景領域に対して、代表色選択法を用いて取得する。代表色選択法は、例えば、長谷,米田,酒井,丸山:カラー文書画像中の文字領域抽出を目的とした色分割についての検討,信学論 D-II vol. J83-D-II No.5 pp.1294-1304 (2000)に記載されている。代表色の選択の手順は、まず文字領域と背景領域の各領域に対し画素値をＲＧＢ色空間からＬ＊ａ＊ｂ＊色空間に変換する。その後、全ての画素を一辺ｗの立方体に分割したＬ＊ａ＊ｂ＊色空間に写像し、小領域に落ちた画素の数を調べる。ここでｗは、予め設定した値である。その結果、小領域の画素値が回りにある２６近傍のそれぞれの小領域に落ちた画素数に比べて最も多い小領域を代表色とした。但し、複数個所が発生する場合はそれらいずれかの領域を代表色とした。

　実際に代表色選択を行い、文字色と背景色とを取得した例を図３に示す。図３において、破線で示す領域は文字列領域である。また、代表色を選択する際のｗの値は、４とした。視覚的特徴量算出部１６は、明度Ｌを代表色の画素のＲＧＢ値から以下の式（１）により求める。
　Ｌ＝０．２９８９１２Ｒ＋０．５８６６１１Ｇ＋０．１１４４７８Ｂ　（１）
視覚的特徴量算出部１６は、文字色の明度Ｌと背景色の明度Ｌとの差の絶対値を求める。続いて、視覚的特徴量算出部１６は、図４の表に従い、得られた文字サイズと明度差とから文字列の視覚的特徴量を算出する。図４に示す表では、視覚的特徴量は、ｌｏｗ、ｍｅｄｉｕｍ及びｈｉｇｈ等と定性的な標記となっているが、それらを定量的な値に変換してもよい。視覚的特徴量算出部１６は、算出した文字列の視覚的特徴量を示す情報を検索部１８に出力する。

　視覚的特徴量算出部１６が視覚的特徴量を算出するタイミングは、例えば、文字列領域抽出部１３が文字列を抽出するタイミングと同様に、新たに画像データベース１１に画像が格納されたタイミングである。この場合、視覚的特徴量は、例えば、画像に対するインデックスであるインデックスに付加された情報として記憶される。あるいは、検索部１８による検索処理が行われる際に、検索部１８からの指示によって行われてもよい。なお、視覚的特徴量算出部１６は、大きさ及び色以外にも、その他の文字の特徴、例えば、形状（フォント）及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づいて、視覚的特徴量を算出することとしてもよい。

　検索キーワード入力部１７は、検索用のキーワードを入力する検索キーワード入力手段である。検索キーワード入力部１７は、複数のキーワードを入力してもよい。その場合、複数のキーワードでＡＮＤ検索を行うか、ＯＲ検索を行うかを示す情報も合わせて入力するのがよい。検索用のキーワードを入力は、例えば、以下のように行われる。

　検索キーワード入力部１７は、管理者端末３０からのアクセス要求を受け付けて、キーワードを入力するためのフォームを有するＷｅｂページのデータを管理者端末３０に送信する。管理者端末３０では、当該Ｗｅｂページのデータが受信されて表示される。管理者端末３０では、ユーザによってキーワードの入力操作が行われて、当該キーワードを含む検索要求が画像検索装置１０に送信される。検索キーワード入力部１７は、当該検索要求を受信して、受信した検索要求からキーワードを取得することによってキーワードを入力する。検索キーワード入力部１７は、入力したキーワードを検索部１８に出力する。

　検索部１８は、検索キーワード入力部１７から入力されたキーワードを用いて、画像データベース１１に格納された画像を対象として検索を行う検索手段である。検索は、検索キーワード入力部１７から入力されたキーワードを構成する各文字が、当該キーワードの順に、文字候補記憶部１５によって記憶された文字列を構成する複数の文字候補の何れかに一致するか否かを判定することによって行われる。例えば、検索用のキーワードが「安全性」であり、文字列を構成する複数の文字候補は図２の表に示すものであった場合、３文字目～５文字目の文字候補にそれぞれ「安」、「全」、「性」の文字が含まれるため、図２に示す文字列は「安全性」というキーワードにヒットしたものとして判断される。文字列がキーワードにヒットしているか否かの判断については、フローを用いて後述する。

　上述したように、文字候補記憶部１５が文字候補を文字列の順に組み合わせた文字列を記憶している態様では、検索キーワード入力部１７から入力されたキーワードと、文字候補記憶部１５が記憶している文字列とを比較することによって検索が行われてもよい。文字候補記憶部１５が記憶している文字列に、検索キーワード入力部１７から入力されたキーワードが含まれていた場合には、文字候補記憶部１５が記憶している文字列はキーワードにヒットしたものと判断される。このように文字候補記憶部１５が文字列を記憶しておくこととすれば、検索用のキーワードと、上記のように文字列同士の一致を判断することによって検索を行うことができるので、検索処理を速くすることができる。なお、文字列として記憶せず図２に示す情報として文字候補を記憶しておけば、未知語やあいまいなキーワードに対しても検索が可能になる。

　上記の検索方法では、文字認識の結果の第１候補のみを用いて検索する場合に比べ、検索漏れの低減（再現率の向上）が期待できるが、同時に認識誤りを多く含む検索誤りが増加する（適合率が低下する）ことが考えられる。そこで、検索部１８は、キーワードを構成する各文字が、文字候補記憶部１５によって記憶された複数の文字候補の何れかに一致した場合（文字候補がキーワードにヒットした場合）、上述した正確性を示す情報から、当該一致に関しての信頼性（一致度）を評価する。より具体的には、検索部１８は、キーワードの文字と一致した文字候補の順番から、上記の信頼性を示す値としてキーワードｔに対する文字認識信頼度（similarity）を算出する。ここで文字認識信頼度は、０．０～１．０の範囲の値であり、より大きい値であれば信頼性が高いことを示す。検索部１８は、以下の式（２）によって、文字認識信頼度similarityを算出する。
　similarity(t)＝Keyword(t).length／totalscore(t)　（２）
上記の式において、Keyword(t).lengthはキーワードｔの長さ（文字数）、totalscore(t)は一致（マッチ）した文字候補の順位の合計とする。なお、第１候補のみでキーワードに一致した文字列の文字認識信頼度は、１．０となる。

　例えば、図５の示した２つの画像のそれぞれの文字認識結果から「絶対痩せる」というキーワードで検索した場合の文字認識信頼度の例を示す。図５（ａ）で示す例では、全ての文字が第１候補と一致しているので、文字認識信頼度は、５÷（１＋１＋１＋１＋１）で計算され１．００となる。図５（ｂ）で示す例では、最後の文字が第３候補と一致しているので、文字認識信頼度は、５÷（１＋１＋１＋１＋３）で計算され０．７１となる。このように、文字認識信頼度が低い画像は誤検索されている可能性が高く、文字認識信頼度が高い画像は検索キーワードを正確に含んでいる可能性が高い。即ち、文字認識信頼度は、検索キーワードをより正確に含んでいる指標として利用できる。そのため、大量の画像の中から検索キーワードを含む画像をリストアップする際に文字認識信頼度をもとに検索結果をソートすることで、検索誤りが少ない結果の画像を優先的に提示できる。

　検索部１８は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定することとしてもよい。より詳細には後述するが、検索キーワードの文字数が少ない（検索キーワードが短い）場合には、検索誤りが生じ適合率が低くなる傾向が認められる。そこで、例えば、キーワードの文字数が予め設定した閾値以下であると判断した場合には、一致を判定する文字候補の数を通常よりも少ない数としてもよい。検索部１８は、文字候補の数を決定したら、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字候補を決定する。具体的には、検索部１８は、決定した文字候補の数の順位までの文字候補を一致を判定する文字候補とする。

　検索部１８は、キーワードと文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出する。このスコア値は、検索結果として出力する画像の順序を示すものであり、本実施形態においては、検索キーワードが不適切な形で画像に含まれるおそれの高さを示すものである。

　まず、検索部１８は、上述したように求めた検索キーワードｔの視覚的特徴量saliency(t)と文字認識信頼度similarity(t)とから、画像内に含まれるｍ番目の文字列（ｔ，ｍ）の文字特徴量termscore(t,m)を以下の式（３）により求める。
　termscore(t,m)＝（１－α）・similarity(t,m)＋α・saliency(t,m)　（３）
ここで、αは視覚的特徴量と文字認識信頼度との重みを示す値である。αは、０～１の値であり予め設定した値である。α、similarity及びsaliencyとの間には相関関係があり、これにより更に精度のよい検索結果が得られる。検索の用い方、目的によってαのつけ方、つまりsimilarityとsaliencyとにどのように重みを付けるべきかを決めることが望ましい。α＝０とした場合には、文字認識信頼度similarityのみが反映されたスコアとなり視覚的特徴量saliencyが考慮されない。一方、α＝１とした場合には、視覚的特徴量saliencyのみが反映されたスコアとなり文字認識信頼度similarityが考慮されない。αを１に近づけるほど文字が合っているか否かという観点では結果が悪くなる。また、画像内のｍ番目の文字列とは、文字列領域抽出部１３によって抽出された複数の文字列領域に係る文字列のうちのどの文字列かを示すものである。ｍは、１から文字列領域抽出部１３によって抽出された文字列領域の数までの値のうちの何れかの値をとる。

　即ち、検索部１８は、キーワードを構成する各文字が当該キーワードの順に一致した文字列を構成する複数の文字候補が認識された文字列領域から視覚的特徴量算出部１６によって算出された視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する。

　また、検索部１８は、検索キーワード入力部１７によって入力された複数のキーワードに対してスコア値を算出する。検索部１８は、画像に含まれるキーワードの出現頻度を考慮するために、画像に含まれるキーワードのｔｆ－ｉｄｆを計算する。ｔｆ－ｉｄｆは、文章中の特徴的な単語を抽出するためのアルゴリズムとして知られ、主に情報検索や文書要約等の分野で利用される指標である。ｔｆは文書中の単語の出現頻度であり、ｉｄｆは多くのドキュメントに出現する語は重要度を下げ、特定のドキュメントにしか出現しない単語の重要度を上げるための逆出現頻度である。本手法では、このｔｆ－ｉｄｆの考え方を画像内文字に拡張し、文字列の視覚的特徴量と文字認識信頼度とに組み合わせて用いることで画像スコアを計算する。

　検索部１８は、検索キーワードｔの出現頻度に応じて画像スコアを高くするために、以下の式（４）により画像内にtf(t)個含まれる検索キーワードｔのそれぞれの文字特徴量の２乗和を求め、検索キーワードによる画像のスコアとする。なお、文字列と画像との対応付けに関しては、文字候補記憶部１５によって記憶された文字候補と画像との対応付けの情報が参照される。ここで、ｍは対象となる画像においてキーワードｔが含まれる文字列の添え字であり、１～tf(t)の範囲の整数である。

　また、複数の検索キーワードで検索を行う場合の画像スコアは、idf(t)の値を用いて算出することができる。検索キーワードｔのidf(t)は検索対象の総画像数（Ａ）とｔを含む画像数（Ｓ）とを用いて以下の式（５）により求められる。idf(t)は、検索キーワードｔを含む画像が少ないほど大きな値となり稀少語であることを示す。
　idf(t)＝log（A／（S＋1））＋1　（５）

　複数の検索キーワードでＡＮＤ検索を行う場合の画像スコアは、クエリー（検索要求）ｑに含まれる複数の検索キーワードｔの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総積を以下の式（６）により求めることで算出される。

　複数の検索キーワードでＯＲ検索を行う場合の画像スコアは、クエリーｑに含まれる複数の検索キーワードｔの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総和を以下の式（７）により求めることで算出される。

上記のように、検索部１８は、画像データベース１１に格納された画像数に対する、キーワードを含む画像数の割合に基づいて、スコア値を算出する。

　ｔｆ－ｉｄｆの考え方では、文章が長くなるほど検索キーワードｔを含む確率が高くなるため、文章量に応じてｔｆを調整することが一般的である。そのため、本手法でも画像内に含まれる文章量の指標として、文字認識後の文字列の長さや画像のサイズを用いて重み付けを行うことが望まれる。しかし、本実施形態で対象としている商品説明画像は複雑な背景やレイアウトを持つため、文字認識時に背景を文字としてご認識する等、認識結果にノイズを含む場合が多い。従って、一概に文字認識後の文字列の長さを画像内の文字量の指標として利用することは難しい。また、画像サイズと画像内に含まれる文字量は一定でないため、６００×１０，０００ｐｉｘ（ピクセル）の超巨大画像のスコアが非常に低くなる場合や、２０×１００ｐｉｘ程度の小さなバナー画像のスコアが急激に高くなる場合がある。そのため、本実施形態では、画像内における文章量による重み付けは必ずしも行う必要は無い。

　検索部１８は、検索によりキーワードにヒットした画像を示す情報、及びそれらの画像に対する画像スコアscore(q,image)を出力部１９に出力する。

　出力部１９は、検索部１８による検索の結果を出力する出力手段である。出力部１９は、キーワードにヒットした画像を示す情報を出力する。出力部１９が出力する画像を示す情報は、文字候補記憶部１５によって記憶された文字候補と画像との対応付けに基づいたものである。

　具体的には例えば、出力部１９による出力は、検索結果の情報を含むＷｅｂページの情報を管理者端末３０に送信することによって行われる。図６に、当該Ｗｅｂページが管理者端末３０のブラウザで表示された例を示す。図６に示すようにキーワードにヒットした画像が表示される。ここで、表示される画像は、画像スコアscore(q,image)が高い順に並べられる。即ち、出力部１９は、検索部１８によって評価されたキーワードと文字候補との間の一致に関しての信頼性に基づいて、検索部１８による検索の結果を出力する。また、出力部１９は、検索部１８によって算出された各画像のスコア値に応じて、検索部１８による検索の結果を出力する。

　また、出力部１９は、画像データベース１１に格納されている画像のハッシュ値に関連付けられている情報に基づいて情報を出力する。出力部１９は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベース１１に画像のハッシュ値に対応付けられて格納されている当該画像が利用されているＷｅｂサイトを示す情報とを出力する。より具体的には、出力部１９は、検索部１８による検索によって得られた画像を示す情報を出力して、当該出力に応じて画像を選択する入力を受け付けて、当該入力に係る画像のハッシュ値に対応付けられて格納されている当該画像が利用されているＷｅｂサイトを示す情報を出力する。

　図６に示す例では、まず、出力部１９は、管理者端末３０に対して、検索部１８による検索の結果としてキーワードにヒットした画像を表示するＷｅｂページのデータを送信する。管理者端末３０では、ブラウザ上にそれらの画像が表示される。図６の領域Ａ１が、キーワードにヒットした画像が表示される部分である。続いて、管理者端末３０では、ユーザによって表示された画像の何れかが、「この商品が買えるお店」という部分がクリックされることによってブラウザ上で選択されると、管理者端末３０は選択された画像を示す情報を画像検索装置１０に送信する。出力部１９は、選択された画像を示す情報を受信して、画像データベース１１を参照して、当該画像のハッシュ値に対応付けられたＷｅｂサイトを示す情報を取得して、管理者端末３０に出力する。

　更に、出力部１９は、画像データベース１１を参照して、Ｗｅｂサイトに示す情報に対応付けられている商品の販売価格を示す情報を取得する。出力部１９は、Ｗｅｂサイトを示す情報を管理者端末３０に送信する際に商品の販売価格順（例えば、価格が高い順、あるいは低い順）に表示されるように出力する。また、Ｗｅｂサイトを示す情報が管理者端末３０で表示される際に、商品の販売価格やＷｅｂサイトにおける商品の説明もあわせて表示されるようにしてもよい。図６の領域Ａ２が、画像が利用されるＷｅｂサイトを示す情報、及び商品の販売価格等が表示される部分である。上記のように出力部１９は、画像データベース１１に格納されている販売価格に応じて画像が利用されているＷｅｂサイトを示す情報を出力する。以上が、画像検索装置１０の機能的な構成である。

　引き続いて、図７～図９のフローチャートを用いて、本実施形態に係る画像検索装置１０で実行される処理（情報処理方法）を説明する。まず、図７のフローチャートを用いて、画像検索用の情報を生成するまでの処理を説明して、その後図８及び図９のフローチャートを用いて画像検索を実際に行う処理を説明する。

　本実施形態に係る画像検索装置１０では、検索対象の画像が入力されて、画像登録部１２によって当該画像が画像データベース１１に登録される（Ｓ０１）。画像の入力と合わせて、当該画像が利用されているＷｅｂサイトを示す情報や画像に係る商品の販売価格の情報等の画像に付随する情報の入力も行われ、それらの情報は上述したようにハッシュ値に対応付けて画像検索装置１０に格納される。画像の入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末３０から行われる。複数の画像が入力された場合には、それぞれの画像について登録が行われ、以下の処理が行われる。

　続いて、画像検索装置１０では、文字列領域抽出部１３によって、画像データベース１１に格納された画像における文字列が含まれる文字列領域が抽出される（Ｓ０２、文字列領域抽出ステップ）。抽出された文字列画像は、文字列領域抽出部１３から文字候補認識部１４に出力される。

　続いて、文字候補認識部１４によって、抽出された文字列領域の画像が文字列を構成する各文字の画像に分割される（Ｓ０３、文字候補認識ステップ）。続いて、文字候補認識部１４によって、分割された各画像に対して文字認識処理が行われ、各文字について予め定められた数の複数の文字候補が特定される（Ｓ０４、文字候補認識ステップ）。このようにして特定された文字候補を示す情報は、文字候補認識部１４から文字候補記憶部１５に出力される。Ｓ０２において、複数の文字列領域が抽出された場合には、文字列領域毎に上記の処理が行われる。

　続いて、文字候補記憶部１５によって、文字候補認識部１４から入力された複数の文字候補の情報が、検索処理の際に検索部１８から検索可能なように記憶される（Ｓ０５、文字候補記憶ステップ）。以上が、画像検索用の情報を生成するまでの処理である。

　引き続いて、図８及び図９のフローチャートを用いて画像検索を実際に行う処理を説明する。本実施形態に係る画像検索装置１０では、検索キーワード入力部１７によって、検索用のキーワードが入力される（Ｓ１１、検索キーワード入力ステップ）。検索用のキーワードは、例えば、管理者端末３０から、キーワードが含められた検索要求を受信することによって入力する。入力された検索用のキーワードは、検索キーワード入力部１７から検索部１８に出力される。

　続いて、検索部１８によって、入力された検索用のキーワードが文字候補記憶部１５によって記憶された文字候補の何れかと一致するか否かが判定されることによって、当該キーワードによる検索が行われる（Ｓ１２、検索ステップ）。

　このキーワードの検索について、図９のフローチャートを用いてより詳細に説明する。ここで、検索用キーワードの各文字をKeyword［ｉ］とする。ｉは、キーワードの文字の順番を示す添え字である。Keyword［１］は、検索用キーワードの１文字目を表す。また、検索用キーワードの文字数をKeyword.lengthとする。また、画像から取得された文字列の文字候補をＣ［ｎ］［ｊ］とする。ｎは、文字列の文字の順番を示す添え字であり、ｊは文字候補の順位を示す添え字である（図１の表における説明と同様）。また、Ｎは文字列の文字数を示す。また、ここでは、キーワードとの一致が判定される文字候補の順位は、３０番目までとする。

　本処理では、まずｎ＝１として開始される。文字列の１文字目の文字候補から、キーワードとの一致を判定するためである。続いて、ｉ＝１とされる（Ｓ１２０１）。キーワードの１文字目が文字候補に一致するか判定するためである。続いて、ｊ＝１とされる（Ｓ１２０２）。第１順位の文字候補がキーワードに一致するか判定するためである。

　続いて、Ｃ［ｎ］［ｊ］＝Keyword［ｉ］を満たすか否かが判断される（Ｓ１２０３）。上記を満たさないと判断された場合（Ｓ１２０３のＮＯ）には、続いて、ｊ＝ｊ＋１とされる（Ｓ１２０４）。次の順位の文字候補がキーワードに一致するか判定するためである。続いて、ｊ＞３０を満たすか否かが判断される（Ｓ１２０５）。キーワードとの一致が判定される文字候補の順位が、設定された値を超えていたら次の文字からの判定をするためである。Ｓ１２０５の条件を満たさないと判断された場合（Ｓ１２０５のＮＯ）、再度Ｓ１２０３の判断が行われる。

　Ｓ１２０５の条件を満たすと判断された場合（Ｓ１２０５のＹＥＳ）、続いて、ｎ＝ｎ＋１とされる（Ｓ１２０６）。文字列の次の文字の文字候補とキーワードとの一致を判定するためである。続いて、ｎ＞Ｎを満たすか否かが判断される（Ｓ１２０７）。文字列の最後まで一致を判定したかを判断するものである。Ｓ１２０７の条件を満たすと判断された場合（Ｓ１２０７のＹＥＳ）、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。Ｓ１２０７の条件を満たさないと判断された場合（Ｓ１２０７のＮＯ）、再度、キーワードの１文字目から一致の判定を開始するためにＳ１２０１の処理に戻る。

　Ｓ１２０３の条件を満たすと判断された場合（Ｓ１２０３のＹＥＳ）には、続いて、ｉ＝Keyword.lengthを満たすか否かが判断される（Ｓ１２０８）。キーワードの最後の文字まで一致が判定されたかを判断するものである。Ｓ１２０８の条件を満たさないと判断された場合（Ｓ１２０８のＮＯ）、続いて、ｉ＝ｉ＋１及びｎ＝ｎ＋１とされる（Ｓ１２０９）。キーワードの次の文字と文字列の次の文字の文字候補との一致を判定するためである。続いて、ｎ＞Ｎを満たすか否かが判断される（Ｓ１２１０）。文字列の最後まで一致を判定したかを判断するものである。Ｓ１２１０の条件を満たすと判断された場合（Ｓ１２１０のＹＥＳ）、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。Ｓ１２１０の条件を満たさないと判断された場合（Ｓ１２１０のＮＯ）、Ｓ１２０２の処理に戻る。キーワードの次の文字と、文字列の次の文字の第１順位の文字候補との一致を判定するためである。

　Ｓ１２０８の条件を満たすと判断された場合（Ｓ１２０８のＹＥＳ）、キーワードの全ての文字がキーワードの順番で、文字列を構成する文字候補の何れかに一致していることになるのでキーワードが文字列にマッチしたものとしてキーワードの検索が終了される。なお、本処理では、この時点でキーワードの検索は終了しているが、更に検索を続けてその後の文字候補にキーワードが一致する部分があるかを判定してもよい。また、上述した方法以外を用いて、キーワードと文字候補の何れかとの一致を判定してもよい。

　Ｓ１２では、上記のキーワードと文字列を構成する文字候補との一致の判定が、検索対象となる全ての文字列に対して行われる。また、Ｓ１１で入力されたキーワードが複数であった場合、複数のキーワードに対して上記の判断が行われる。

　続いて、図８に戻り、キーワードにマッチしたと判断された文字列について文字列のスコアが算出される（Ｓ１３、検索ステップ）。具体的には、以下のようにスコアが算出される。まず、検索部１８によって、キーワードと一致した文字列（文字候補）について、上述した式（２）が用いられて、文字認識信頼度が算出される（Ｓ１３１、検索ステップ）。

　続いて、上述した式（１）が用いられて、キーワードと一致した文字列に係る文字列領域の画像の視覚的特徴量が算出される（Ｓ１３２、視覚的特徴量算出ステップ）。視覚的特徴量の算出は、検索部１８から視覚的特徴量算出部１６に対して指示が行われて視覚的特徴量算出部１６によって行われる。なお、視覚的特徴量算出部１６による視覚的特徴量の算出自体は、必ずしもこのタイミングで行われる必要は無く、予め例えば、Ｓ０４と同様のタイミングで行って記憶しておき、このタイミングでは記憶された情報を参照することとしてもよい。算出された視覚的特徴量を示す情報は、視覚的特徴量算出部１６から検索部１８に出力される。

　続いて、検索部１８によって、上述した式（３）が用いられて文字列のスコア値である文字特徴量termscore(t,m)が算出される（Ｓ１３３、検索ステップ）。

　続いて、検索部１８によって、上述した式（５）が用いられて、キーワードの使用率を示す値であるidf(t)が算出される（Ｓ１４、検索ステップ）。続いて、検索部１８によって、算出された文字特徴量termscore(t,m)とidf(t)とから、上述した式（４）並びに式（６）及び式（７）の何れかが用いられて、画像スコアscore(ｑ,image)が算出される（Ｓ１５、検索ステップ）。Ｓ１２においてキーワードにマッチしたと判断された文字列を含む画像を示す情報と、上記の画像スコアを示す情報とが、検索部１８から出力部１９に出力される。

　続いて、出力部１９によって、検索部１８による検索の結果が出力される（Ｓ１６、出力ステップ）。検索の結果の出力は、検索部１８から入力された情報から、管理者端末３０からの検索要求に対する検索結果の情報を生成して管理者端末３０に送信することによって行われる。具体的には、検索結果の情報は、上述したように画像スコアが高い順にキーワードにマッチしたと判断された文字列を含む画像を示す情報が管理者端末３０において表示するものである。また、上述したように当該画像が利用されているＷｅｂサイトの情報等についても、出力部１９から管理者端末３０に送信される。ユーザは管理者端末３０において表示される検索結果を参照することで検索結果を認識することができる。以上が、画像検索装置１０において、画像検索を実際に行う処理である。

　上述したように本実施形態では、画像に含まれる文字列の各文字を複数の文字候補として認識する。即ち、本実施形態では、認識結果を多重化する。そして、検索用のキーワードの各文字が、文字候補の何れかに一致するかが判定されることによって検索される。従って、本実施形態では、検索用のキーワードの各文字が文字候補と一致していれば、画像に含まれる文字列の中にキーワードが含まれると判断される。

　画像内の文字は、画像が複雑なレイアウト構造や飾り文字等を含む画像等である場合には、文字の切り出しや文字の抽出に起因して文字認識誤りを生じやすい。しかしながら、本実施形態によれば、上記のような画像であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、各文字について複数の文字候補から検索されるため検索漏れを防止し、適切に検索を行うことができる。

　また、本実施形態のように各文字についての文字認識の正確性に基づいて、文字候補に順位付けをして当該順位付けに基づいて検索を行うことが望ましい。この構成によれば、認識の正確性に基づいて、検索の信頼性に応じた検索結果の出力が可能になる。即ち、例えば、検索のキーワードが用いられている可能性が高いものから検索結果を提示することが可能になり、ユーザにとってより利便性の高い検索結果の出力を行うことができる。但し、必ずしも文字候補の順位付けをする必要は無く、複数の文字候補を同列に扱うこととしてもよい。

　また、上述したように検索用のキーワードの文字数に応じて、一致を判定する文字候補の数を決定することが望ましい。この構成によれば、検索用のキーワードの文字数に応じた、より適切に画像に対する検索を行うことができる。但し、必ずしも上記のように文字候補の数を決定する必要は無く、一致を判定する文字候補の数を、予め設定した一定値（例えば、上述した例のように３０と）することとしてもよい。

　また、本実施形態のように画像のスコア値を算出して、スコア値に応じた検索結果の出力を行うことが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　また、本実施形態のように複数のキーワードからスコア値を算出することが望ましい。この構成によれば、上述したようにＡＮＤ検索やＯＲ検索等の複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。

　また、本実施形態のように画像におけるキーワードの出現率に応じてスコア値を算出することが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。

　また、本実施形態のように視覚的特徴量に基づいてスコア値を算出することが望ましい。この構成では、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、この構成によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。例えば、同一文字列が含まれる画像でも、小さい文字で説明されている場合に比べ、タイトル等の大きな文字で表記されている画像の場合にスコア値が高くなる。これにより、視覚的に目立つと同時に不正である確率が高い表現を見つけることができる。但し、例えば、視覚的に特徴的な文字を抽出する必要がない場合等には、必ずしも視覚的特徴量を算出して、スコア値に視覚的特徴量を反映させる必要はない。

　なお、視覚的特徴量を用いる本発明の特徴は、以下のような本発明の発明者の知見により得られたものである。不正な画像を検出するための検索のキーワードが用いられている画像であっても、キーワードの使われ方によっては必ずしも不正な表現とならない場合も多くみられる。

　そこで本発明の発明者は、予備実験としてサイバーモールの管理者が事前に不正な画像であると判断した６７４枚の画像を目視で確認した。その結果、不正表現を含む画像には、（１）不正単語が視覚的に目立つものが多い（２）不正単語の出現頻度が高い（３）画像内に複数の不正単語が含まれるという特徴が分かった。これらの知見をもとに、視覚的特徴量から画像のスコア値を算出したものである。なお、出現頻度等の知見についても、上述した本発明の特徴に反映されている。

　人間は、周囲の視覚刺激の中で異なる属性を持っている刺激に対して無意識に視線を向けることが多い。Ｗ３ＣのTechniques For Accessibility Evaluation And Repair Toolsによると明度差１２５以上、色差５００以上が読みやすい色の組み合わせであるとされている。ウェブコンテンツ制作においても読みやすいコンテンツとするためには文字色と背景色との明度差や色差によるコントラストを確保する必要があることが知られている。また、槙らの研究では文字と背景の色彩をそれぞれ４０通りに変化させた１６００サンプルの評定結果から配色の明度差が読みやすさに大きく関わっていることを示している。

　そこで、上記の「不正単語が視覚的に目立つものが多い」という知見をスコアリングに反映させるために、６７４枚の不正表現を含むサンプル画像内の不正な文字列とその他の画像に含まれる文字列のサイズとコントラストに注目し分布を計測した。その結果、画像のサイズに関係なく文字サイズ３０ｐｔ以上はタイトルや見出し、２０ｐｔ以下の文字サイズは説明文に多く用いられている傾向があった。また、検知したいキーワードはタイトルやコントラストが高く目立ちやすい色使いをされていることが分かった。これらの知見から上述したような視覚的特徴量の特徴を構成したものである。ただし、明度差の範囲はＷ３Ｃで定義されている読みやすい明度差１２５と、高本らの研究によって得られた白内障の人にとっての読みやすいと感じられる“おおむね十分の境界”である１５８を基準とした。

　また、本実施形態のように画像から得られるハッシュ値に、当該画像が用いられているＷｅｂサイトを示す情報を対応付けておき、その対応に基づいて出力を行うことが望ましい。ハッシュ値は同一の画像であれば、一定の範囲内の値となるため複数の箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数の箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。但し、上記のようなケースを想定していない場合等については、ハッシュ値を用いた情報の格納や出力を必ずしも行う必要はない。

　上述した実施形態においては、画像検索装置１０は、画像検索用の情報を生成するまでの処理と、生成された画像検索用の情報を用いて画像検索を実際に行う処理との両方を備えていた。しかしながら、上記のそれぞれの処理のみを行う装置が、本発明に係る装置として別々に構成されていてもよい。即ち、そのうちの一つの装置は、上述した機能のうち、少なくとも画像データベース１１と、文字列領域抽出部１３と、文字候補認識部１４と、文字候補記憶部１５とを備える情報処理装置である画像検索用情報生成装置である。また、もう１つの装置は、上述した機能のうち、少なくとも文字候補記憶部１５と、検索キーワード入力部１７と、検索部１８と、出力部１９とを備える情報処理装置である画像検索装置である。

　なお、本実施形態では、検索対象の画像としてサイバーモールで販売される商品の説明画像を例として説明したが、本発明において検索対象の画像は上記の目的の画像に限られず任意の画像を検索対象としてよい。例えば、電子データ化された本の対象として検索を行う場合にも適用できる。また、本発明に係る画像検索の目的も上記のものに限られず任意の目的のものに対して用いられてもよい。また、不正な画像を検出する場合であっても、上述した基準以外の基準を用いて検索を行うこととしてもよい。例えば、小さな文字で表現される不正表現を検出する場合には、文字が小さいほどスコアが高くなるような基準を用いてもよい。

　引き続いて、本発明に係る評価実験について説明する。以下のような評価実験を行った。文字候補数Ｎによりどの程度、画像内文字検索の精度が変化するかを評価するために、文字候補数を１～６０の範囲で５刻みに変化させ、不正表現を含む画像で用いられやすい以下の６６個の検索キーワードを利用して画像内文字検索を行った。検索キーワードは、具体的には例えば、白肌、細胞、発毛、抑毛、花粉症、若返り、抗老化である。

　実験は、予めサイバーモールの管理者が、「医薬品・コンタクト・介護カテゴリ」内で検知した不正表現を含むサンプル画像を用い、上述した手法により画像内文字を認識し、認識結果を得た。但し、文字カテゴリとして英、数、記号、ひらがな、カタカナ、漢字（ＪＩＳ第一水準）を含む３４１０文字を利用し、辞書を作成するために電子商店で多く利用されている「ＨＧＳ創英角ポップ体」「ＨＧＰ行書体」「ＭＳゴシック」の３つのフォントを利用した。また、上記の検索キーワードを用いて目視によりカウントした検索キーワードを含む画像数（Ｓ）と、文字候補数を変化させて得られた正解画像数（Ｔ）、誤って検知された画像数（Ｅ）を比較し、平均の再現率（Recall）と適合率（Precision）とＦ値とを式（８）（９）（１０）により求めた。
　Recall＝Ｔ／Ｓ　（８）
　Precision＝Ｔ／（Ｔ＋Ｅ）　（９）
　Ｆ＝（２・Recall・Precision）　（１０）

　文字候補数と上記の値との関係を示すグラフを、図１０に示す。図１０に示すように、文字候補を増やすことで適合率が下がり再現率が上がる傾向が見られ、文字認識結果を多重化することで検索漏れを低減することが可能であることが分かる。また、文字候補数が３０付近でＦ値が安定し、文字候補数が３０以降では検索性能の差が小さくなるため、本実施形態における文字認識手法では文字候補を第３０位まで利用することで良好な検索結果が得られることが分かる。

　また、文字候補数３０の場合の検索キーワードの長さと検索精度との関係を図１１の表に示す。この表に示すように、検索キーワードが短い場合に検索誤りが生じ適合率が低くなる傾向が認められる。これは文字候補数を多くすることによって、誤認識された文字認識結果を検知する確率が高くなるためであり、検索キーワードの長さに応じて文字候補数を調整することで適合率を高くすることが可能である。更に、再現率と検索キーワードの長さとの相関は見られなかったが、全体的に再現率が低くなる傾向が見られる。これは、サンプル画像にはアーチ状に配置された文字列や斜体の文字、サイズが小さいといった、文字抽出及び認識が困難なケースが多く含まれたためである。

　続いて、文字認識信頼度と画像内の文字列の視覚的特徴と出現頻度とを利用した画像スコアを用いることで、不正である確率が高い視覚的に目立つ文字列を含む画像を効率良く見つけることが可能かどうかを確認するために以下の実験を行った。サンプル画像として図１２に示した１０種類の画像を作成して画像スコアを求めた。画像内の文字色は、#000000（色の表記は、Ｗｅｂセールカラー表記である。以下同様）の「ＭＳゴシック」のフォントを利用し、（１）（４）（６）～（１０）は文字サイズを３０ｐｔ、（３）（５）は２０ｐｔ、（２）は３０ｐｔと２０ｐｔとの両方を利用し、（１）～（５）（７）（８）（１０）は背景色を#FFFFFF、（６）（９）は#666666とした。また、「絶対痩せる」と「絶対痩せろ」の各文字列の画像の認識結果に対し「絶対痩せる」というキーワードで検索した場合の文字認識信頼度は、上述した図５を用いた説明で示した通り、文字サイズに関わらずそれぞれ１．００、０．７１となった。

　サンプル画像のスコアを上述した文字認識信頼度と視覚的特徴量とのバランスをとるパラメータαを０．０～１．０で０．２刻みに変化させて計算した結果を、図１３の表に示す。但し、上述した視覚的特徴量saliency(t)は、式（３）において、saliency(t)を０．０とした場合、画像内文字の視覚的な特徴をスコアに反映できないので、本実験では、ｌｏｗを０．５、ｈｉｇｈを１．０、ｍｅｄｉｕｍをその中間の値である０．７５とした。

　まず、αが０．０の場合に注目すると、画像のスコアには文字認識信頼度のみが反映されるため、検索誤りが少ない結果の画像を優先的に提示することが可能になる。しかし、文字認識信頼度が同じ（１）～（３）と（６）とが同じスコアになり、視覚的に目立たない（６）が上位に来る可能性がある。αは文字認識信頼度と視覚的特徴量とのバランスをとるパラメータであるから、αの値を高くするほど視覚的特徴量を強く反映することができる。しかし、αが０．６以上の場合に検索キーワードを含まない（７）及び（１０）のスコアが、検索キーワードを同数含む（６）及び（５）のスコアをそれぞれ超えてしまっている。そのため検索結果の上位の検索誤りを含む結果が表示されてしまうことになる。同様に（４）（９）（１０）を比較すると、αが０．０の場合（４）と（９）とが同スコアになり、αが１．０の場合（４）と（１０）とが同スコアになってしまう。

　次に、（１）（７）（８）について比較すると、αが１．０以外の場合に画像に含まれる検索キーワードが多いほど画像スコアが高くなっていることが分かる。これらの結果から、αの値を０．２～０．４に設定することで検索キーワードを含まない画像のスコアを低く、また視覚的特徴量に応じて検索結果を良好にソートできていることが確認できる。

　このように、文字認識信頼度だけでなく文字列の視覚的特徴量と出現頻度を考慮することで、同一の文字列が同数含まれる場合に小さい文字で説明されている画像に比べ、タイトル等の大きな文字で表記されている画像の場合にスコアを高くすることが可能になる。これにより、より視覚的に目立つと同時に不正である確率が高い表現を含む画像を効率良く見つけることができる。

　続いて、上述した画像検索装置１０（画像内文字検索システム）を作成し、実際にサイバーモールで利用されている画像を対象に検索時間の評価を行った。作成したシステムは、Ｗｅｂサーバ上で動作するウェブアプリケーションである。上述した多重化された認識結果から任意の文字列検索を高速に実現するためにＬｕｃｅｎｅ（Ａｐａｃｈｅプロジェクトが管理する全文検索エンジン）を用いた。本システムではインデックスを作成するためにＬｕｃｅｎｅに実装されているＮ－ｇｒａｍを用いた単語分割Ａｎａｌｙｚｅｒ（ｕｎｉ－ｇｒａｍ）を用いて、第Ｎ位までの文字認識候補の組み合わせの中から任意単語の検索を行った。但し、インデックス作成時に文字色と背景色のコントラストと、文字サイズとから求められる視覚的特徴量をＦｉｅｌｄに持たせることで、検索キーワードに応じた画像スコアの計算を行う。開発した画像内文字検索システムの応答性能や検索精度といった実用性の確認をおこなうために実際のサイバーモールの「ダイエット・健康カテゴリ」、「医薬品・コンタクト・介護カテゴリ」から取得した５６７，６６７枚の画像を対象に、予め画像内の文字認識を行った結果得られた認識結果をインデックス化している。

　標準的なＯＳによって動作する標準的なＰＣによって、以下のような条件で測定を行った。
　　画像数：５６７，６６７枚
　　インデックスサイズ（ＧＢ）：２．２（Ｎ＝１）、２．８（Ｎ＝５）、３．６（Ｎ＝１０）、４．４（Ｎ＝１５）、５．２（Ｎ＝２０）、６．０（Ｎ＝２５）、３０（Ｎ＝６．８）

　実験では、上述した、文字候補数Ｎに応じた画像内文字検索の精度変化の評価に用いた６６個の検索キーワードを用いて文字候補数が１～３０のインデックスを使用し、文字候補数に対する検索時間を確認した。図１４に文字候補数と検索時間との関係を示すグラフを示す。図１４に示すように、文字候補数に対する検索時間はＯ（ｎ）で増えている。同時に、標準偏差の値が大きくなることからキーワードの長さによって探索時間のばらつきが生じていることが分かる。また、文字候補数３０の場合においても平均検索時間が約３５０ミリ秒であり、ストレスを感じさせないという意味で十分実用に耐えうる応答性能を実現できていることがわかる。但し、平均検索時間は上記の６６個のキーワードをクエリーとして１０回検索を行った際の平均の時間である。

　引き続いて、上述した一連の画像検索装置１０の画像検索を行う処理をコンピュータに実行させるための情報処理プログラムを説明する。図１５に示すように、情報処理プログラム４１は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体４０に形成されたプログラム格納領域４０ａ内に格納される。

　情報処理プログラム４１は、画像検索処理を統括的に制御するメインモジュール４１ａと、画像データベースモジュール４１ｂと、画像登録モジュール４１ｃと、文字列抽出モジュール４１ｄと、文字候補認識モジュール４１ｅと、文字候補記憶モジュール４１ｆと、視覚的特徴量算出モジュール４１ｇと、検索キーワード入力モジュール４１ｈと、検索モジュール４１ｉと、出力モジュール４１ｊとを備えて構成される。画像データベースモジュール４１ｂと、画像登録モジュール４１ｃと、文字列領域抽出モジュール４１ｄと、文字候補認識モジュール４１ｅと、文字候補記憶モジュール４１ｆと、視覚的特徴量算出モジュール４１ｇと、検索キーワード入力モジュール４１ｈと、検索モジュール４１ｉと、出力モジュール４１ｊとを実行させることにより実現される機能は、上述した画像検索装置１０の画像データベース１１と、画像登録部１２と、文字列領域抽出部１３と、文字候補認識部１４と、文字候補記憶部１５と、視覚的特徴量算出部１６と、検索キーワード入力部１７と、検索部１８と、出力部１９との機能とそれぞれ同様である。

　なお、情報処理プログラム４１は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、情報処理プログラム４１の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の情報処理プログラム４１の情報処理を行う処理が行われる。

　１０…画像検索装置、１１…画像データベース、１２…画像登録部、１３…文字列領域抽出部、１４…文字候補認識部、１５…文字候補記憶部、１６…視覚的特徴量算出部、１７…検索キーワード入力部、１８…検索部、１９…出力部、３０…管理者端末、４０…記録媒体、４０ａ…プログラム格納領域、４１…情報処理プログラム、４１ａ…メインモジュール、４１ｂ…画像データベースモジュール、４１ｃ…画像登録モジュール、４１ｄ…文字列領域抽出モジュール、４１ｅ…文字候補認識モジュール、４１ｆ…文字候補記憶モジュール、４１ｇ…視覚的特徴量算出モジュール、４１ｈ…検索キーワード入力モジュール、４１ｉ…検索モジュール、４１ｊ…出力モジュール。

Claims

　検索対象の画像を格納する画像データベースと、
　前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
　前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
　前記文字候補認識手段によって特定された複数の文字候補を文字毎に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
を備える情報処理装置。
　検索用のキーワードを入力する検索キーワード入力手段と、
　前記キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に前記文字候補記憶手段によって記憶された前記文字列を構成する前記複数の文字候補の何れかに一致するか否かを検索する検索手段と、
　前記検索手段による検索の結果を、前記文字候補記憶手段によって記憶された前記文字候補と画像との対応付けに基づいて出力する出力手段と、
を更に備える請求項１に記載の情報処理装置。
　前記文字候補認識手段は、前記文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、
　前記文字候補記憶手段は、前記文字候補認識手段によって評価された前記正確性を示す情報に基づいて前記文字候補を記憶し、
　前記検索手段は、前記キーワードを構成する各文字が、前記文字候補記憶手段によって記憶された前記複数の文字候補の何れかに一致した場合、前記正確性を示す情報から当該一致に関しての信頼性を評価し、
　前記出力手段は、前記信頼性にも基づいて、検索結果を出力する、
ことを特徴とする請求項２に記載の情報処理装置。
　前記検索手段は、前記キーワードの文字数に応じて、前記キーワードとの一致を判定する文字候補の数を決定して、前記文字候補についての前記正確性を示す情報から前記キーワードとの一致を判定する文字候補を決定することを特徴とする請求項３に記載の情報処理装置。
　前記検索手段は、前記キーワードと前記文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、
　前記出力手段は、前記検索手段による検索の結果を前記スコア値に応じて出力する、
ことを特徴とする請求項２～４のいずれか一項に記載の情報処理装置。
　検索対象の画像を格納する画像データベースと、
　前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
　前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
　前記文字候補認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
を備える情報処理装置。
　検索用のキーワードを入力する検索キーワード入力手段と、
　前記キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に前記文字候補記憶手段によって記憶された文字列の何れかに一致するか否かを検索する検索手段と、
　前記検索手段による検索の結果を、前記文字候補記憶手段によって記憶された文字列と画像との対応付けに基づいて出力する出力手段と、
を更に備える請求項６に記載の情報処理装置。
　前記文字候補認識手段は、前記文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、
　前記文字候補記憶手段は、前記文字候補認識手段によって評価された前記正確性を示す情報に基づいて文字列を記憶し、
　前記検索手段は、前記キーワードを構成する各文字が、前記文字候補記憶手段によって記憶された文字列の何れかに一致した場合、前記正確性を示す情報から当該一致に関しての信頼性を評価し、
　前記出力手段は、前記信頼性にも基づいて、検索結果を出力する、
ことを特徴とする請求項７に記載の情報処理装置。
　前記検索手段は、前記キーワードの文字数に応じて、前記キーワードとの一致を判定する文字候補の数を決定して、前記文字候補についての前記正確性を示す情報から前記キーワードとの一致を判定する文字列を決定することを特徴とする請求項８に記載の情報処理装置。
　前記検索手段は、前記キーワードと前記文字列との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、
　前記出力手段は、前記検索手段による検索の結果を前記スコア値に応じて出力する、
ことを特徴とする請求項７～９のいずれか一項に記載の情報処理装置。
　前記検索手段は、前記キーワード入力手段によって入力された複数の前記キーワードに対して前記スコア値を算出する、
ことを特徴とする請求項５又は１０に記載の情報処理装置。
　前記検索手段は、前記画像データベースに格納された画像数に対する、前記キーワードを含む画像数の割合に基づいて、前記スコア値を算出することを特徴とする請求項５、１０又は１１に記載の情報処理装置。
　前記文字列領域抽出手段によって抽出された文字列領域の画像から、各文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段を更に備え、
　前記検索手段は、前記キーワードの各文字が当該キーワードの順に一致した前記文字列の文字候補が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する、
ことを特徴とする請求項５、１０～１２の何れか一項に記載の情報処理装置。
　前記画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているＷｅｂページの箇所を示す情報とを対応付けて格納し、
　前記出力手段は、前記検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、前記画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているＷｅｂページの箇所を示す情報とを出力する、
ことを特徴とする請求項２～５、７～１３の何れか一項に記載の情報処理装置。
　検索対象の画像を格納する画像データベースを備える情報処理装置による情報処理方法であって、
　前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、
　前記文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識ステップと、
　前記文字候補認識ステップによって特定された複数の文字候補を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶ステップと、
を含む情報処理方法。
　検索対象の画像を格納する画像データベースを備える情報処理装置による情報処理方法であって、
　前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、
　前記文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識ステップと、
　前記文字候補認識ステップによって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶ステップと、
を含む情報処理方法。
　一つ以上のコンピュータを、
　検索対象の画像を格納する画像データベースと、
　前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
　前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
　前記文字候補認識手段によって特定された複数の文字候補を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
　一つ以上のコンピュータを、
　検索対象の画像を格納する画像データベースと、
　前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
　前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
　前記文字候補認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。