JPWO2015129062A1

JPWO2015129062A1 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JPWO2015129062A1
Application number: JP2016504984A
Authority: JP
Inventors: 野中　修; 修野中; 国雄山宮; 児玉　裕; 裕児玉; 慎也阿部; 裕一土持
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2014-02-28
Filing date: 2014-07-01
Publication date: 2017-03-30
Anticipated expiration: 2034-07-01
Also published as: WO2015129062A1; US10346706B2; CN106063247B; JP6444981B2; JP6634502B2; US20160364622A1; JP2019061702A; CN106063247A

Abstract

画像処理装置(100)は、画像を取得する画像取得部(102)と、画像取得部(102)で取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定し、前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定する文字領域推定部(104)と、文字領域推定部(104)で推定された文字領域候補の情報を出力する出力部(106)とを備える。文字領域推定部(104)は、画像内の複数の垂直線を検出する垂直線検出部(1041)と、画像内の複数の水平線を検出する水平線検出部(1042)と、検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出する色分布検出部(1043a)によって検出された色分布によって文字領域候補線を判定する文字領域候補線判定部(1043)とを有する。

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。

画像内の文字を読み取る技術は、例えば特許文献１において提案されている。例えば、特許文献１は、静止画像中に含まれるオブジェクト（文字領域を含む）を優先度に従って抽出し、抽出したオブジェクトに対して視覚効果を付与する等の処理を行うようにしている。

日本国特許第４５１９５３１号公報

特許文献１等の従来の文字読み取り機能を有する画像処理装置は、文字の認識が行えなかった場合には読み取りが不能であったことをユーザに通知するものが多い。ここで、装置では文字を読み取れなくとも、人の目視では読み取ることができることも多いと考えられる。したがって、実際に文字を読み取ることができなかったとしても、ユーザにシーン内の文字を含む領域を提示することは有効であると考えられる。

本発明は、前記の事情に鑑みてなされたもので、画像内の文字を含むと考えられる領域を推定してユーザに提示できる画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。

前記の目的を達成するために、本発明の第１の態様の画像処理装置は、画像を取得する画像取得部と、前記取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定し、前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定する文字領域推定部と、前記文字領域推定部で推定された文字領域候補の情報を出力する出力部とを具備し、前記文字領域推定部は、前記画像内の複数の垂直線を検出する垂直線検出部と、前記画像内の複数の水平線を検出する水平線検出部と、前記検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出する色分布検出部と、前記検出された色分布によって前記文字領域候補線を判定する文字領域候補線判定部とを有する画像処理装置。

本発明の第２の態様の画像処理方法は、取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定することと、前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定することと、前記推定された文字領域候補の情報を出力することとを具備し、前記文字領域候補線の判定は、前記画像内の複数の垂直線を検出することと、前記画像内の複数の水平線を検出することと、前記検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出することと、前記検出された色分布によって前記文字領域候補線を判定することとを有する。

本発明の第３の態様の画像処理プログラムは、取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定することと、前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定することと、前記推定された文字領域候補の情報を出力することと、をコンピュータに実行させるための画像処理プログラムであって、前記文字領域候補線の判定において、前記画像内の複数の垂直線を検出することと、前記画像内の複数の水平線を検出することと、前記検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出することと、前記検出された色分布によって前記文字領域候補線を判定することとをコンピュータに実行させる。

本発明によれば、画像内の文字を含むと考えられる領域を推定してユーザに提示できる画像処理装置、画像処理方法及び画像処理プログラムを提供することができる。

図１は、本発明の一実施形態に係る画像処理装置の機能ブロック図である。図２は、本発明の一実施形態に係る画像処理装置を撮像装置に適用した場合の構成を示す図である。図３Ａは、撮像装置の動作の概要を示す第１の図である。図３Ｂは、撮像装置の動作の概要を示す第２の図である。図３Ｃは、撮像装置の動作の概要を示す第３の図である。図４Ａは、本発明の一実施形態に係る撮像装置の撮影時の動作を示すフローチャートの第１図である。図４Ｂは、本発明の一実施形態に係る撮像装置の撮影時の動作を示すフローチャートの第２図である。図５Ａは、文字領域候補判定１の処理の概要について示す第１の図である。図５Ｂは、文字領域候補判定１の処理の概要について示す第２の図である。図５Ｃは、文字領域候補判定１の処理の概要について示す第３の図である。図６は、文字領域候補判定１の処理を示すフローチャートである。図７Ａは、文字領域候補線の例を示す第１の図である。図７Ｂは、文字領域候補線の例を示す第２の図である。図７Ｃは、文字領域候補線の例を示す第３の図である。図７Ｄは、文字領域候補線の例を示す第４の図である。図７Ｅは、文字領域候補線の例を示す第５の図である。図７Ｆは、文字領域候補線の例を示す第６の図である。図８は、文字領域候補判定２の処理を示すフローチャートである。図９Ａは、文字領域候補判定２の処理を説明するための第１の図である。図９Ｂは、文字領域候補判定２の処理を説明するための第２の図である。図１０は、ステップＳ１１０で作成される画像ファイルの一例を示す図である。図１１は、ステップＳ１２０において関連付けされた画像ファイルの一例を示す図である。図１２Ａは、本発明の一実施形態の変形例１に係る撮像装置の撮影時の動作を示すフローチャートの第１図である。図１２Ｂは、本発明の一実施形態の変形例１に係る撮像装置の撮影時の動作を示すフローチャートの第２図である。図１３Ａは、車載用途とした変形例２を示す第１の図である。図１３Ｂは、車載用途とした変形例２を示す第２の図である。

以下、図面を参照して本発明の実施形態を説明する。図１は、本発明の一実施形態に係る画像処理装置の機能ブロック図である。画像処理装置１００は、画像取得部１０２と、文字領域推定部１０４と、出力部１０６とを有している。

画像取得部１０２は、文字を含む領域を判定する対象となる画像を取得する。この画像取得部１０２は、例えば撮像部による撮像によって得られた画像を取得する。この他、画像取得部１０２は、画像処理装置１００の外部の機器から入力された画像を取得するように構成されていても良い。

文字領域推定部１０４は、画像取得部１０２によって入力された画像内の文字を含むと考えられる領域（この時点では文字であるか否かは判定されなくて良い）を推定する。この文字領域推定部１０４は、垂直線検出部１０４１と、水平線検出部１０４２と、文字領域候補線判定部１０４３と、陰影検出部１０４４と、文字領域候補推定部１０４５とを有している。垂直線検出部１０４１は、画像内の複数の垂直線を検出する。水平線検出部１０４２は、画像内の水平線を検出する。文字領域候補線判定部１０４３は、画像内の複数の垂直線の関係又は画像内の複数の水平線の関係から、文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定する。この文字領域候補線判定部１０４３は、色分布検出部１０４３ａとしての機能と、色判定部１０４３ｂとしての機能とを有する。色分布検出部１０４３ａとしての機能は、複数の垂直線間及び複数の水平線間の色分布を検出する機能である。色判定部１０４３ｂとしての機能は、色分布が略等しい色分布であるか否かを判定する機能である。陰影検出部１０４４は、画像内の陰影分布を検出する。文字領域候補推定部１０４５は、文字領域候補線に沿った方向の陰影分布から文字を含むと考えられる領域（文字領域候補）を推定する。

出力部１０６は、文字領域推定部１０４の文字領域候補推定部１０４５で推定された文字領域候補の情報を表示部等に出力する。この情報は、例えば文字領域候補の座標である。

図２は、図１に示した画像処理装置１００を撮像装置に適用した場合の構成を示す図である。図２に示す撮像装置２００は、制御部２０２と、撮像部２０４と、表示部２０６と、記録部２０８と、操作部２１０と、タッチパネル２１２と、姿勢検出部２１４と、位置検出部２１６と、計時部２１８と、通信部２２０とを有している。図２に示す撮像装置２００は、例えばデジタルカメラやスマートフォンといった各種の撮像機能を有する機器である。

制御部２０２は、例えばＣＰＵで構成され、図１で示した画像処理装置１００を有する。この他、制御部２０２は、撮像制御部２０２２と、画像処理部２０２３と、文字認識部２０２４と、メタデータ作成部２０２５と、表示制御部２０２６と、通信制御部２０２７とを有している。撮像制御部２０２２は、撮像部２０４による撮像動作を制御する。画像処理部２０２３は、撮像部２０４によって取得された画像データに対して表示や記録のために必要な画像処理を施す。この画像処理は、ホワイトバランス補正、階調補正、色補正といった画質に関する補正、リサイズ処理、圧縮処理、伸張処理等を含む。文字認識部２０２４は、文字辞書ＤＢ２０８２を参照して画像データ中の文字を認識する。メタデータ作成部２０２５は、文字認識部２０２４の認識結果に基づいて画像ファイルに付加するためのメタデータを作成する。表示制御部２０２６は、表示部２０６への各種の画像の表示を制御する。通信制御部２０２７は、撮像装置２００と外部機器との通信の際の制御をする。通信制御部２０２７により、撮像装置２００は、サーバ３００と通信自在に接続される。また、通信制御部２０２７の制御により、撮像装置２００は、別の端末機器（スマートフォン）４００とも通信自在に接続される。

撮像部２０４は、被写体を撮像して被写体に関する画像（画像データ）を取得する。この撮像部２０４は、撮影レンズ２０４１と、撮像素子２０４２と、アナログ／デジタル（Ａ／Ｄ）変換部２０４３とを有している。撮影レンズ２０４１は、被写体からの光束を撮像素子２０４２に集光させる。撮像素子２０４２は、受光面を有する。受光面には、画素が配置されている。画素は、例えばフォトダイオードであり、入射光の光量に応じた電気信号（画像信号）を出力する。Ａ／Ｄ変換部２０４３は、撮像素子２０４２で得られたアナログの画像信号をデジタルの画像信号（画像データ）に変換する。

表示部２０６は、例えば液晶ディスプレイや有機ＥＬディスプレイであり、各種の画像データに基づいて画像を表示する。この画像データは、撮像部２０４の撮像によって得られた画像データや記録部２０８に記録された画像データである。

記録部２０８は、例えばフラッシュメモリであり、画像データ等をファイルとして記録している。また、記録部２０８には、接続先データベース（ＤＢ）２０８１と文字辞書（ＤＢ）２０８２が構築されている。接続先ＤＢ２０８１は、撮像装置２００の通信対象となる機器（サーバ３００や端末機器４００）と通信するために必要なアドレス情報等を記憶したデータベースである。文字辞書ＤＢ２０８２は、文字認識のための文字のパターンの情報を記憶したデータベースである。なお、記録部２０８は、撮像装置２００に内蔵されているものであっても、撮像装置２００に対して着脱自在なものであっても良い。

操作部２１０は、ユーザが撮像装置２００の操作を行うための機械式の操作部材である。操作部２１０としては、例えばレリーズボタンや電源スイッチが含まれる。レリーズボタンは、ユーザが撮影動作の実行を指示するためのボタンである。また、電源スイッチは、ユーザが撮像装置２００の電源のオン又はオフを指示するためのスイッチである。

タッチパネル２１２は、表示部２０６の表示画面の上に形成されており、ユーザによるタッチ操作を検出する。制御部２０２は、タッチパネル２１２で検出されたタッチ操作に応じた処理を行う。例えば、タッチパネル２１２は、レリーズボタンの代わりとして用いられる。その他、タッチパネル２１２は、表示部２０６の表示画面に表示された画像の特定の部分をユーザが指定するために用いられる。

姿勢検出部２１４は、例えば３軸の加速度センサであり、撮像装置２００の姿勢（例えば、標準姿勢（いわいる横位置）において、撮像装置２００の水平方向をＸ方向とする。正のＹ方向は、被写体側から撮像装置２００を見て右方向とする。さらに、撮像装置２００の垂直方向をＹ方向とする。正のＹ方向は、標準姿勢における上方向とする。このような座標系において、Ｚ軸（撮影レンズ２０１４の光軸）周りの回転運動がロール、Ｘ軸周りの回転運動がピッチの正方向回転、原点からＸ軸正方向に見たときのＺ軸周りの左回転がロールの正方向回転、原点からＹ軸正方向を見たときのＹ軸周りの右回転がヨーの正方向回転である。）を検出する。位置検出部２１６は、例えば、撮像装置２００本体に内蔵、又は不図示のホットシューに取り付けられたＧＰＳ（Global Positioning System）を有する。このＧＰＳによる外部から送信された信号を受信することやスマートフォン等の端末機から送信されるＧＰＳ通信情報を受信することによって撮像装置２００の現在位置を検出する。なお、位置検出部２１６によって撮像装置２００内における撮影レンズ２０１４の光軸方向に基づいて方位を検出できるようにしても良い。あるいはスマートフォン等の端末機で記録したＧＰＳログを撮像装置２００に転送することで、撮像装置２００に保存されている画像データのＥｘｉｆ情報にＧＰＳタグを追加記録してもよい。計時部２１８は、現在時刻を取得する。通信部２２０は、通信制御部２０２７による制御に従ってサーバ３００や端末機器４００と通信する。なお、通信部２２０による通信は、有線通信であってもよいし、無線通信であってもよい。

また、サーバ３００は、制御部３０２と、記録部３０４と、通信部３０６とを有している。ここで、図１のサーバ３００は、クラウドサーバであってもよい。例えば、制御部３０２と記録部３０４とは別個の場所にあってもよい。

制御部３０２は、文字認識部３０２１と、通信制御部３０２２とを有している。文字認識部３０２１は、撮像装置２００から通信によって取得した画像データにおける文字領域候補内で文字の認識をする。通信制御部３０２２は、撮像装置２００との通信の際の制御をする。

記録部３０４は、例えばハードディスクである。この記録部３０４には、文字辞書データベース（ＤＢ）３０４１が構築されている。文字辞書ＤＢ３０４１は、文字認識のための文字の形状情報を記憶したデータベースである。なお、文字辞書ＤＢ３０４１は、文字辞書ＤＢ２０８２よりも情報量の多いデータベースでも良い。

通信部３０６は、通信制御部３０２２による制御に従って撮像装置２００と通信する。

以下、本実施形態に係る画像処理装置１００を備えた撮像装置２００の動作を説明する。本実施形態に撮像装置２００は、看板等の文字を有する被写体を含むシーンの撮影時に好適なものである。例えば、図３Ａに示すような「△高原」との文字が記された石碑をユーザが撮影しようとしたとする。このとき、撮像装置２００（画像処理装置１００）は、撮像により得られた画像の中の文字領域候補を推定する。この推定については後で詳しく説明する。

文字領域候補が推定されると、図３Ｂに示すように、表示部２０６に表示された画像の文字領域候補の部分２０６ａが強調表示（枠で囲む等）される。このときに文字認識が完了しているのであれば、文字認識結果をユーザに提示するようにしても良い。

強調表示により、ユーザに文字領域候補の部分を注視させることができる。そして、文字領域候補内に文字が有ったことを認識したユーザは、図３Ｂに示すように表示部２０６の表示画面（すなわちタッチパネル２１２）をタッチする等して撮影指示を行う。このとき、撮像装置２００による撮影が行われ、その後、図３Ｃに示すように、ライブビュー画像に関連付けガイド２０６ｂが表示される。関連付けガイド２０６ｂは、例えば文字領域候補の部分の縮小画像である。このような関連付けガイド２０６ｂにより、シーン中の文字の存在をユーザに認識させ、台の撮影をユーザに対して促すことができる。

図４Ａ及び図４Ｂは、本実施形態に係る撮像装置２００の撮影時の動作を示すフローチャートである。図４Ａ及び図４Ｂに示す動作は、制御部２０２によって制御される。図４Ａ及び図４Ｂにおいて、制御部２０２は、撮像装置２００の動作モードが撮影モードであるか否かを判定する（ステップＳ１０１）。撮像装置２００は、動作モードとして撮影モードと再生モードとを少なくとも有している。撮影モードは、記録用の画像を撮影するための動作モードである。再生モードは、記録された画像を再生するための動作モードである。ステップＳ１０１において撮像装置２００の動作モードが再生モードであると判定した場合に、制御部２０２は、再生モードの処理を行う。再生モードの処理については簡単に説明する。再生モードにおいて、制御部２０２は、記録部２０８に記録されている画像ファイルの一覧を表示部２０６に表示させる。一覧表示された画像ファイルの中でユーザが所望の画像ファイルを選択すると、制御部２０２は、その選択された画像ファイルに対応した画像を表示部２０６に表示させる。

ステップＳ１０１において、動作モードが撮影モードであると判定した場合に、制御部２０２は、ライブビュー表示を行う（ステップＳ１０２）。ライブビュー表示は、撮像部２０４の連続動作によって得られる画像をリアルタイムで表示部２０６に表示させる動作である。なお、ライブビュー表示中に顔検出等を行うようにしても良い。ライブビュー表示の後、制御部２０２は、現在の撮影モードの設定が関連付け撮影モードであるか否かを判定する（ステップＳ１０３）。関連付け撮影モードとは、文字を含む被写体の撮影をユーザに対して促す撮影モードである。詳細については後で説明する。

ステップＳ１０３において、現在の撮影モードの設定が関連付け撮影モードでないと判定した場合に、制御部２０２は、文字領域候補判定１の処理を行う（ステップＳ１０４）。文字領域候補判定１の処理は、文字領域候補線を判定する処理である。以下、文字領域候補判定１の処理について説明する。

図５Ａに示すように、例えばライブビュー表示中に得られた画像内の文字が画像の水平方向又は垂直方向と平行に配列されているのであれば文字を認識し易い。ここで、看板等は必ずしも人物に対して水平に配置されているわけではない。また、ユーザの構図の決め方によっては必ずしも画像に対して文字が水平又は垂Ａ直に配置されるとは限らない。例えば、図５Ｂに示すような、被写体である人物Ｓが石碑Ｐの斜め横に位置しているようなシーンでは画像の水平方向及び垂直方向に対して文字が傾きを持ってしまい、文字認識がしにくくなる。しかしながら、石碑の水平又は垂直方向が判別できれば、その方向に文字が配列されている可能性があると推定することはできる。

本実施形態に係る撮像装置２００は、文字が認識できないような状況であっても、文字が存在していると考えられる文字領域候補の情報をユーザに提示することにより、必要に応じて適切な方向から文字の撮影を行わせるようユーザにアドバイスする。例えば、図５Ｃに示すように、画像に対して文字が水平でなくても、文字が記されている領域（図５Ｃの例では石碑Ｐ）が地面に対して水平であるならば文字領域候補と判定する。そして、このような場合には、文字領域候補の存在をユーザにアドバイスする。

図６は、文字領域候補判定１の処理を示すフローチャートである。図６の処理は、制御部２０２の画像処理装置１００によって行われる。図６において、画像処理装置１００の画像取得部１０２は、ライブビュー表示用の撮像によって得られた画像データを取得し、取得した画像データを、文字領域推定部１０４に入力する。文字領域推定部１０４の垂直線検出部１０４１は、入力された画像データにおける垂直線を検出する（ステップＳ２０１）。なお、ステップＳ２０１において検出する垂直線は、地面に対して垂直な線であることが望ましい。したがって、姿勢検出部２１４によって検出される撮像装置２００の姿勢から画像データにおける地面と平行な線（地平線）を検出し、この地平線に対して鉛直方向の線を垂直線として検出する。垂直線は、エッジ検出やコーナー検出等の周知の手法を利用して検出することができる。

垂直線検出の後、垂直線検出部１０４１は、２本以上の垂直線が検出できたか否かを判定する（ステップＳ２０２）。画像内の文字領域候補である看板や石碑には、図７Ａ、図７Ｂ及び図７Ｆで示すような直方体状のもの、図７Ｃで示すような平板状のもの、図７Ｄ及び図７Ｅで示すような円柱状のものといったように、種々の形状がある。また、文字が記される位置も、上側や側面等の種々のものがある。しかしながら、画像として見た場合、文字領域候補と考えられる領域は、閉じた領域となる。ステップＳ２０２の処理は、閉じた領域である文字領域候補の垂直線を探索するための処理である。文字領域候補としての閉じた領域を探索するため、垂直線を２本以上検出する。ステップＳ２０２の処理により、図７Ａ、図７Ｂ、図７Ｄ及び図７Ｅの例では垂直線Ｌｖ１及びＬｖ２が検出される。また、図７Ｃ及び図７Ｆの例では垂直線Ｌｖ１、Ｌｖ２及びＬ３が検出される。このように、図７Ａ〜図７Ｆで示した看板等を含むシーンの撮影時には、ステップＳ２０２において２本以上の垂直線が検出できたと判定される。

ステップＳ２０２において、ライブビュー撮影時に取得した画像データ内に、２本以上の垂直線が検出できたと垂直線検出部１０４１が判定した場合に、文字領域候補線判定部１０４３は、垂直線検出部１０４１によって検出された垂直線の長さを比較する。そして、文字領域候補線判定部１０４３は、長さが等しく隣接した２本の垂直線があるか否かを判定する（ステップＳ２０３）。本実施形態の例では、長さが等しく隣接した２本の垂直線がある場合、図７Ａ〜図７Ｆで示したように、それらの２本の垂直線の間の領域には文字が存在している可能性があると考える。

このとき、文字領域候補線判定部１０４３は、ライブビュー撮影時に取得した画像データから、隣接した２本の垂直線の間の領域の色（色情報信号：彩度、色相）を検出する。これら領域の色情報を検出する手段として、例えば、ライブビュー撮影時に取得した画像データは、輝度信号成分（Ｙ）と２つの色差信号（Ｃｒ，Ｃｂ）信号が含まれているが、そのうちの２つの色差信号（Ｃｒ，Ｃｂ）信号成分のみを抽出する。

上述の２つの色差信号（Ｃｒ，Ｃｂ）は、撮像素子から得られるＲ，Ｇ，Ｂの三原色の画像信号出力（Ｒ信号、Ｇ信号、Ｂ信号）に対して、それぞれ、Ｒ信号、およびＢ信号出力から輝度信号成分（Ｙ）を減算した出力値である。ここで第１の色差信号（Ｃｒ）は、Ｒ信号出力から、輝度信号成分（Ｙ）を減算した出力値である。そして、第２の色差信号（Ｃｂ）は、Ｂ信号出力から輝度信号成分（Ｙ）を減算した出力値である。

これらの第１の色差信号（Ｃｒ），第２の色差信号（Ｃｂ）を、それぞれ水平方向、垂直方向のベクトル量と示した場合に、この２つの色差信号によるベクトルの大きさにより、色情報の彩度が示される。色情報の彩度は、２つの色差信号によるベクトルの大きさが大きいほど、色が鮮やかであることが示される。またこの２つの色差信号によるベクトルがなす方向により、色情報として色相情報が検出される。色相は、色味を示すものである。

この２つの色差信号によるベクトルがなす方向は、第１の色差信号（Ｃｒ），第２の色差信号（Ｃｂ）との大きさの比を算出することで方向が示される。

具体的には、第１の色差信号（Ｃｒ）が，第２の色差信号（Ｃｂ）に対して比率が大きい場合には、ライブビュー撮影時に取得した画像データは、色情報として赤味が強い色であることが示される。一方、第１の色差信号（Ｃｒ）が，第２の色差信号（Ｃｂ）に対して比率が小さい場合には、ライブビュー撮影時に取得した画像データは、色情報として青味が強い色であることが示される。また、上述で示す、隣接した２本の垂直線の間の領域の色の代表値として、色差信号の平均出力値または、最も面積が広い領域に対応する色差信号の平均出力値等を算出する。そして、文字領域候補線判定部１０４３は、隣接した２本の垂直線の間の領域の色が略同じ色であるか否かを判定する（ステップＳ２０４）。

ステップＳ２０４での色判定は、具体的には、まず、それぞれ比較判定で示す領域の画像データから、第１の色差信号（Ｃｒ），第２の色差信号（Ｃｂ）を算出する。次に算出された、第１の色差信号（Ｃｒ），第２の色差信号（Ｃｂ）から、彩度情報と色相情報を検出する。

ステップＳ２０４で示す２本の垂直線の間の領域の色が略同じ色であるか否かの判定は、彩度情報と色相情報を、それぞれ比較して、それぞれの値の差が大きいか否かで判定する。

具体的な一例として、看板や台（例えば、石碑）等の場合、文字の部分以外の部分は略同じ色であると考えられる（例えば図７Ａの垂直線Ｌｖ１と垂直線Ｌｖ２の間は略同じ色となる）。したがって、隣接した２本の垂直線の間の領域の色が略同じ色（詳細には、色差信号から色相、彩度を検出し、比較対象となる色の色相、彩度との差が所定範囲より小さい場合に略同じ色と判断する）である場合には、その領域には文字が存在している可能性があると考える。このとき、文字領域候補線判定部１０４３は、隣接した２本の垂直線の端部を結ぶ線（直線又は曲線）を文字領域候補線とする（ステップＳ２０５）。例えば、図７Ａの例では垂直線Ｌｖ１の端部と垂直線Ｌｖ２の端部とを結ぶＬｈ１及びＬｈ２が文字領域候補線となる。

ステップＳ２０５の後、又はステップＳ２０２において２本以上の垂直線が検出できなかったと判定された場合、ステップＳ２０３において長さが等しく隣接した２本の垂直線がないと判定された場合、或いはステップＳ２０４において隣接した２本の垂直線の間の領域の色が略同じ色でないと判定された場合に、水平線検出部１０４２は、入力された画像データにおける水平線を検出する（ステップＳ２０６）。水平線は、エッジ検出やコーナー検出等の周知の物体検出における輪郭検出の手法を利用して検出することができる。

水平線検出の後、水平線検出部１０４２は、２本以上の水平線が検出できたか否かを判定する（ステップＳ２０７）。ステップＳ２０７において２本以上の水平線が検出できたと水平線検出部１０４２が判定した場合に、文字領域候補線判定部１０４３は、水平線検出部１０４２によって検出された水平線の長さを比較する。そして、文字領域候補線判定部１０４３は、長さが等しく隣接した２本の水平線があるか否かを判定する（ステップＳ２０８）。ステップＳ２０８において、長さが等しく隣接した２本の水平線があると判定した場合に、文字領域候補線判定部１０４３は、隣接した２本の水平線の間の領域の色を検出する。そして、文字領域候補線判定部１０４３は、隣接した２本の水平線の間の領域の色が略同じ色であるか否か（詳細には、色差信号から色相、彩度を検出し、比較対象となる色の色相、彩度との差が所定範囲より小さい場合に略同じ色と判断する）を判定する（ステップＳ２０９）。ステップＳ２０９において隣接した２本の水平線の間の領域の色が略同じ色であると判定した場合に、文字領域候補線判定部１０４３は、隣接した２本の水平線の端部を結ぶ線（直線又は曲線）を文字領域候補線とする（ステップＳ２１０）。例えば、図７Ａの例では水平線Ｌｈ１の端部と水平線Ｌｈ２の端部とを結ぶＬｖ１及びＬｖ２が文字領域候補線となる。

ステップＳ２１０の後、又はステップＳ２０７において２本以上の水平線が検出できなかったと判定された場合、ステップＳ２０８において長さが等しく隣接した２本の水平線がないと判定された場合、或いはステップＳ２０９において隣接した２本の水平線の間の領域の色が略同じ色でないと判定された場合に、文字領域候補線判定部１０４３は、画像データ内の閉じた線（直線又は曲線によって囲まれた領域）が検出できたか否かを判定する（ステップＳ２１１）。閉じた線は、垂直線検出部１０４１及び水平線検出部１０４２で抽出されたエッジの形状等から検出される。

ステップＳ２１１において閉じた線が検出できた場合には、閉じた線によって形成される領域内に文字が含まれている可能性があると考える。このとき、文字領域候補線判定部１０４３は、検出された線内の領域の色を検出する。そして、文字領域候補線判定部１０４３は、検出された線内の領域の色が略同じ色であるか否かを判定する（ステップＳ２１２）。ステップＳ２１２において領域内の色が略同じ色であると判定した場合に、文字領域候補線判定部１０４３は、検出された線を文字領域候補線とする（ステップＳ２１３）。例えば、図７Ａの例では垂直線Ｌｖ１及びＬｖ２と水平線Ｌｈ１及び水平線Ｌｈ２とが文字領域候補線となる。ステップＳ２１３の処理により、閉曲線も文字領域候補線として検出され得る。

ステップＳ２１３の後、又はステップＳ２１１において閉じた線が検出できなかった場合或いはステップＳ２１２において領域の色が略同じ色でない場合に、文字領域推定部１０４は、図６の処理を終了させて図４Ａ及び図４Ｂの処理に戻る。処理が図４Ａ及び図４Ｂの処理に戻った後、制御部２０２は、文字領域候補判定２の処理を行う（ステップＳ１０５）。文字領域候補判定２の処理は、文字領域候補線に従って文字領域候補を判定する処理である。以下、文字領域候補判定２の処理について説明する。

図８は、文字領域候補判定２の処理を示すフローチャートである。図８の処理も、制御部２０２の画像処理装置１００によって行われる。図８において、文字領域推定部１０４の文字領域候補推定部１０４５は、文字領域候補線判定部１０４３によって検出された文字領域候補線の付近において、文字領域候補線に沿った方向に規則的な形状の空白部（単一階調部）があるか否かを判定する（ステップＳ３０１）。

図９Ａで示すように、看板等に記される文字は、看板等の水平方向又は垂直方向に沿って配列される可能性が高いと考えられる。また、文字には種々の形状があるので、画像の中の文字が配列されている部分には規則的な形状の空白部がない（少ない）と考えられる。したがって、文字領域候補線に沿った方向の規則的な形状の空白部があるか否かを第１の判定基準とし、この判定結果に応じて文字領域候補を判定する。図９Ａのような石碑についての判定では、文字領域候補線Ｌｈ１（Ｌｈ２）に沿った方向と文字領域候補線Ｌｈ３（Ｌｈ４）に沿った方向とで判定が行われる。そして、文字領域候補線Ｌｈ１に沿った方向の判定では規則的な形状の空白部があると判定され、文字領域候補線Ｌｈ３に沿った方向の判定では文字を含むために規則的な空白部がないと判定される。一方で、図９Ｂのような窓を有する建物の例では、文字領域候補線Ｌｈ１に沿った方向の判定においても、文字領域候補線Ｌｈ３に沿った方向の判定においても規則的な形状の空白部はあると判定される。このような判定により、文字を含まない領域を文字領域候補と誤判定してしまう可能性を低減させることが可能である。

ステップＳ３０１において文字領域候補線に沿った方向に規則的な形状の空白部がないと判定した場合に、文字領域候補推定部１０４５は、記録部２０８の文字辞書ＤＢ２０８２を参照して、画像データにおける文字領域候補線の付近の領域において文字を示すパターンが検出できたか否かを判定する（ステップＳ３０２）。前述したように、文字は文字領域候補線に沿って配置される可能性が高いと考えられる。したがって、文字領域候補線の付近の領域であれば文字が検出され易いと考えられる。

ステップＳ３０２において、文字を示すパターンが検出できなかったと判定した場合に、文字領域候補推定部１０４５は、規則的な形状の空白部の付近の領域に線で構成されたパターンがあるか否かを判定する（ステップＳ３０３）。ステップＳ３０３では、実際に文字であると判定できないようなパターンであっても線で構成されたパターンがあれば、その領域に文字があると考える。

ステップＳ３０２において文字を示すパターンが検出できたと判定した場合又はステップＳ３０３において規則的な形状の空白部の付近の領域に線で構成されたパターンがあると判定した場合に、文字領域候補推定部１０４５は、文字を示すパターンが検出できた領域又は線で構成されたパターンを検出できた領域を文字領域候補とする（ステップＳ３０４）。一方、ステップＳ３０１において文字領域候補線に沿った方向に規則的な形状の空白部があると判定した場合又はステップＳ３０３において規則的な形状の空白部の付近の領域に線で構成されたパターンがないと判定した場合に、文字領域候補推定部１０４５は、文字領域候補がないと判定する（ステップＳ３０５）。ステップＳ３０４又はステップＳ３０５の後、文字領域推定部１０４は、図８の処理を終了させて図４Ａ及び図４Ｂの処理に戻る。

処理が図４Ａ及び図４Ｂの処理に戻った後、制御部２０２は、画像処理装置１００の出力部１０６から文字領域候補判定１及び文字領域候補判定２の処理結果を取得し、この処理結果から、画像データ中に文字領域候補があるか否かを判定する（ステップＳ１０６）。ステップＳ１０６において文字領域候補があると判定した場合に、制御部２０２は、例えば図３Ｂで示したように、文字領域候補の部分を強調表示する（ステップＳ１０７）。なお、ステップＳ１０７では文字領域候補の存在を強調できればよいので、文字領域候補の部分を強調表示するのではなく、文字領域候補の存在を音声等によって通知するだけでもよい。

ステップＳ１０６において文字領域候補がないと判定した場合又はステップＳ１０７の後、制御部２０２は、ユーザによる撮影指示があるか否かを判定する（ステップＳ１０８）。撮影指示は、例えばレリーズボタンの押圧操作やタッチパネル２１２を用いたタッチレリーズ操作である。ステップＳ１０８において撮影指示があったと判定した場合に、制御部２０２は、撮影動作を実行する（ステップＳ１０９）。撮影動作は、撮像部２０４を制御して記録用の画像データを取得する動作である。

撮影動作の後、制御部２０２は、撮像部２０４において得られた画像データに基づいて画像ファイルを作成する（ステップＳ１１０）。図１０は、ステップＳ１１０で作成される画像ファイルの一例を示している。図１０に示すように、画像ファイルは、画像データ部とタグ情報部とに分けられている。画像データ部には、撮影動作によって得られた画像データが圧縮された状態で記録される。タグ情報部には、位置検出部２１６で検出された撮影場所や計時部２１８で検出された撮影時刻といった撮影時の各種の情報がメタデータとして記録される。

画像ファイルの作成後、制御部２０２は、文字領域候補があるか否かを判定する（ステップＳ１１１）。ステップＳ１１１において文字領域候補があると判定した場合に、制御部２０２は、図３Ｃに示すような関連付けガイド２０６ｂを表示させる（ステップＳ１１２）。その後、制御部２０２は、撮影モードの設定を関連付け撮影モードにする（ステップＳ１１３）。

続いて、制御部２０２は、撮像装置２００の電源をオフするか否かを判定する（ステップＳ１１４）。例えば、電源スイッチがオフにされた場合や所定時間の操作がない場合に電源をオフするものとする。ステップＳ１１４において電源をオフすると判定した場合に、制御部２０２は、図４Ａ及び図４Ｂの処理を終了させる。一方、ステップＳ１１４において電源をオフしないと判定した場合に、制御部２０２は、処理をステップＳ１０１に戻す。

ステップＳ１０３において現在の撮影モードの設定が関連付け撮影モードであると判定されている場合、図３Ｃに示すような関連付けガイド２０６ｂが表示されている。ユーザは、関連付けガイド２０６ｂを見て、シーンにおける文字を含む被写体を認識し、必要に応じて文字の部分が写り易いように撮像装置２００を構えて撮影指示を行う。この撮影指示を判定するため、ステップＳ１０３において現在の撮影モードの設定が関連付け撮影モードであると判定した場合に制御部２０２は、撮影指示がなされたか否かを判定する（ステップＳ１１６）。ステップＳ１１６において撮影指示がなされたと判定した場合に、制御部２０２は、撮影動作を実行する（ステップＳ１１７）。撮影動作の実行後、制御部２０２は、文字認識部２０２４により、撮影動作によって得られた画像データにおける文字を認識する（ステップＳ１１８）。その後、制御部２０２は、文字認識が可能であったか否かを判定する（ステップＳ１１９）。

ステップＳ１１９において文字認識が可能でなかったと判定した場合に、制御部２０２は、文字の認識候補が得られたか否かを判定する（ステップＳ１２０）。汚れ等によって文字の一部が認識できなくとも、認識できた部分から全体の文字を推定できる場合がある。ステップＳ１２０の処理は、このような推定を行うことができたかを判定するための処理である。

ステップＳ１２０において文字の認識候補が得られなかったと判定した場合に、制御部２０２は、文字の判別を行うことができなかったことを示す判別不可メッセージを表示部２０６に表示させる（ステップＳ１２１）。また、ステップＳ１２０において文字の認識候補が得られたと判定した場合にも、制御部２０２は、判別不可メッセージを表示部２０６に表示させる（ステップＳ１２２）。その後、制御部２０２は、文字の認識候補の一覧を表示部２０６に表示させる（ステップＳ１２３）。一覧表示の後、制御部２０２は、ユーザによって認識候補が選択されたか否かを判定する（ステップＳ１２４）。ステップＳ１２４において例えば所定時間の間、認識候補が選択されていないと判定した場合に、制御部２０２は、処理をステップＳ１２７に移行させる。

ステップＳ１１９において文字認識が可能であったと判定した場合又はステップＳ１２４において認識候補が選択されたと判定した場合に、制御部２０２は、メタデータ作成部２０２５により、認識された文字情報を画像ファイルに関連付けする（ステップＳ１２６）。その後、制御部２０２は、処理をステップＳ１２７に移行させる。図１１は、ステップＳ１２０において関連付けされた画像ファイルの一例を示している。図１１に示すように、認識された文字情報は、画像ファイルのタグ情報部に記録される。

ステップＳ１１６において撮影指示がないと判定した場合、ステップＳ１２４において所定時間の間に認識候補が選択されていないと判定した場合、又はステップＳ２１６の後、制御部２０２は、関連付けモードの設定を解除する（ステップＳ１２７）。その後、制御部２０２は、処理をステップＳ１１４に移行させる。

以上説明したように本実施形態によれば、画像内の垂直線又は水平線から文字領域候補線を判定し、判定した文字領域候補線に沿って文字の存在する可能性の高い領域を文字領域候補として判定し、文字領域候補の部分の情報をユーザに提示することにより、シーン内の看板等の文字を有する被写体の存在をユーザに認知させることが可能である。また、文字領域候補が判定できたときには、撮影モードの設定が関連付け撮影モードに設定される。関連付け撮影モード中のライブビュー表示においては、関連付けガイド２０６ｂが表示されるので、文字が認識し易いような向きで看板等を撮影することをユーザに促すことができる。

以下、本実施形態の変形例を説明する。
［変形例１］
前述の実施形態は、撮像装置２００において文字の認識を行っており、撮像装置２００で文字認識を行えない場合には、判別不可表示を行ってから処理を終了させている。しかしながら、文字認識は撮像装置２００だけで行う必要はない。変形例１は、撮像装置２００において文字認識を行うことができない場合にサーバ３００において文字認識を行う例である。

図１２Ａ及び図１２Ｂは、本実施形態の変形例１に係る撮像装置２００の撮影時の動作を示すフローチャートである。なお、図１２Ａ及び図１２Ｂにおいて図４Ａ及び図４Ｂと同一の処理については、図４Ａ及び図４Ｂと同一の参照符号を付すことで説明を省略する。すなわち、ステップＳ１０１〜ステップＳ１１７までの処理については説明を省略する。ステップＳ１１８における文字認識の後、制御部２０２は、文字認識が可能であったか否かを判定する（ステップＳ１１９）。

ステップＳ１１９において文字認識が可能であったと判定した場合に、制御部２０２は、メタデータ作成部２０２５により、認識された文字情報を画像ファイルに関連付けする（ステップＳ１２６）。一方、ステップＳ１１９において文字認識が可能でなかったと判定した場合に、制御部２０２は、ステップＳ１１７の撮影動作で得られた文字を含む被写体の画像データを先に記録した画像ファイルの関連画像ファイルとして記録部２０８に記録させる（ステップＳ１３１）。その後、制御部２０２は、処理をステップＳ１２７に移行させる。

ステップＳ１０１において撮像装置２００の動作モードが撮影モードでないと判定した場合に、制御部２０２は、撮像装置２００の動作モードが再生モードであるか否かを判定する（ステップＳ１３２）。ステップＳ１３２において撮像装置２００の動作モードが再生モードであると判定した場合に、制御部２０２は、再生モードの処理を行う。一方、ステップＳ１３２において撮像装置２００の動作モードが再生モードでないと判定した場合に、制御部２０２は、撮像装置２００の動作モードが通信モードであるか否かを判定する（ステップＳ１３３）。ステップＳ１３３において撮像装置２００の動作モードが通信モードでないと判定した場合に、制御部２０２は、処理をステップＳ１１４に移行させる。

ステップＳ１３３において撮像装置２００の動作モードが通信モードであると判定した場合に、制御部２０２は、ユーザによって通信指示がされたか否かを判定する（ステップＳ１３４）。通信指示は、例えば通信モード中にユーザが任意の画像ファイルを選択することによって行われる。ステップＳ１３４において通信指示がされていないと判定した場合に、制御部２０２は、処理をステップＳ１１４に移行させる。

ステップＳ１３４において通信指示がされたと判定した場合に、制御部２０２の通信制御部２０２７は、ユーザによって選択された画像ファイルを通信部２２０によってサーバ３００に送信する（ステップＳ１３５）。サーバ３００の制御部３０２は、画像ファイルを受信した場合に、受信した画像ファイルを記録部３０４に記録させる。このとき、制御部３０２は、受信した画像ファイルが関連画像ファイルである場合には、文字認識部３０２１により文字認識を行う。サーバ３００に搭載される文字辞書ＤＢ３０４１は撮像装置２００に搭載される文字辞書ＤＢ２０８２よりも情報量が多いので、サーバ３００による文字認識の成功率のほうが撮像装置２００による文字認識の成功率も高い。

画像ファイルの送信後、制御部２０２は、サーバ３００による文字認識結果を受信したか否かを判定する（ステップＳ１３６）。ステップＳ１３６においてサーバ３００による文字認識結果を受信していないと判定した場合に、制御部２０２は、処理をステップＳ１１４に移行させる。ステップＳ１３６においてサーバ３００による文字認識結果を受信したと判定した場合に、制御部２０２は、メタデータ作成部２０２５により、認識された文字情報を画像ファイルに関連付けする（ステップＳ１３７）。その後、制御部２０２は、処理をステップＳ１１４に移行させる。

以上説明した変形例１では、関連付け撮影モード時に撮影された画像に対する文字認識を撮像装置２００において行うことができなかった場合に、その画像を関連画像として記録部２０８に記録させるようにしている。この関連画像をサーバ３００に送信することにより、サーバ３００による高精度の文字認識を用いて文字認識の成功確率を高めることが可能である。

［変形例２］
前述した実施形態及び変形例１では、主に、撮像装置２００がデジタルカメラやスマートフォンといった携帯機器である例について説明している。これに対し、例えば、撮像装置２００は、車両に搭載されて使用されてもよい。例えば、図１３Ａに示すように、変形例２の車両Ｃ搭載された撮像部２０４である。撮像部２０４の撮影レンズ２０４１が所定の焦点位置における開口角αを有する。撮像部２０４は、走行中に前方の撮像を行い、撮像において得られた画像における垂直線と水平線から文字領域候補線及び文字候補領域を判定する。

変形例２の車両Ｃは、画像表示機能を有したフロントミラーを有している。このフロントミラーの近傍には車両Ｃの前方を撮像可能なように撮像装置２００が配置されている。図１３Ｂは、車両Ｃのフロントミラーの部分を示した図である。図１３Ｂに示すように、文字領域候補を判定できた場合には、前述した実施形態と同様に、関連付けガイド表示２０６ｂが行われる。例えば、図１３Ｂの例では、「ＰＡＲＫ」の領域は、２本の垂直線を結ぶ水平線に沿って文字が配列されているので、前述した本実施形態の手法によって文字領域候補と判定される。

ここで、道路の場合、横断歩道等の白線４０４の付近にも文字が配されている可能性が高い。しかしながら、道路上の白線４０４は、画像上では図１３Ｂに示すような斜め方向の線となる。したがって、白線４０４は、本実施形態における垂直線や水平線とは判定されない。そこで、変形例２では、画像内で道路の側線４０２を検出することにより、画像内の側線４０２の角度と車両Ｃの進行方向とに応じた画像の角度補正を行う。そして、角度補正をした画像内で側線４０２に対して垂直な白線４０４を検出し、この白線４０４も文字領域候補線とする。これにより、図１３Ａに示した道路上の「注意」の文字を含む領域を文字領域候補とすることができる。

以上実施形態に基づいて本発明を説明したが、本発明は上述した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。また、前述の各動作フローチャートの説明において、便宜上「まず」、「次に」等を用いて動作を説明しているが、この順で動作を実施することが必須であることを意味するものではない。ここでは画像処理装置としての側面を強調して説明したが、画像表示装置、検査装置や警告装置として、コンシューマ用途の他、産業用機器、医療用機器として応用できることは言うまでもない。こうした現場では、様々な文字表示が行われており、ユーザに警告や注意を促している場合が多く、こうした文字は、水平、垂直に書かれていることが多い。機械などで表示する場合も、例外ではなく、ここで説明した看板や標識同様の考え方が適用できる。これによって、人が気がつきにくい情報を画像のデータから判定し、見落としをなくすような応用の用途、再撮影、再検査、再観察を促す用途にも応用可能なことは言うまでもない。文字を読み取れれば、そこから文字判定をして、テキストベースの検索や、アドレスの読み込みなどを通じたインターネットなどの連携が出来、さらなる観察や撮影の補助を第三者から支援されることが容易になり、さらなる鑑賞、観察、検査に繋げることが出来る。

また、上述した実施形態による各処理は、制御部２０２に実行させることができるプログラムとして記憶させておくこともできる。この他、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の外部記憶装置の記憶媒体に格納して配布することができる。そして、制御部２０２は、この外部記憶装置の記憶媒体に記憶されたプログラムを読み込み、この読み込んだプログラムによって動作が制御されることにより、上述した処理を実行することができる。

１００画像処理装置、１０２画像取得部、１０４文字領域推定部、１０６出力部、２００撮像装置、２０２制御部、２０４撮像部、２０６表示部、２０８記録部、２１０操作部、２１２タッチパネル、２１４姿勢検出部、２１６位置検出部、２１８計時部、２２０通信部、３００サーバ、３０２制御部、３０４記録部、３０６通信部、４００端末機器、１０４１垂直線検出部、１０４２水平線検出部、１０４３文字領域候補線判定部、１０４３ａ色分布検出部、１０４３ｂ色判定部、１０４４陰影検出部、１０４５文字領域候補推定部、２０２２撮像制御部、２０２３画像処理部、２０２４文字認識部、２０２５メタデータ作成部、２０２６表示制御部、２０２７通信制御部、２０４１撮影レンズ、２０４２撮像素子、２０４３アナログ／デジタル（Ａ／Ｄ）変換部、２０８１接続先データベース（ＤＢ）、２０８２文字辞書データベース（ＤＢ）、３０２１文字認識部、３０２２通信制御部、３０４１文字辞書データベース（ＤＢ）

Claims

画像を取得する画像取得部と、
前記取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定し、前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定する文字領域推定部と、
前記文字領域推定部で推定された文字領域候補の情報を出力する出力部と、
を具備し、
前記文字領域推定部は、
前記画像内の複数の垂直線を検出する垂直線検出部と、
前記画像内の複数の水平線を検出する水平線検出部と、
前記検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出する色分布検出部と、
前記検出された色分布によって前記文字領域候補線を判定する文字領域候補線判定部と、
を有する画像処理装置。
前記文字領域候補線判定部は、前記検出された複数の垂直線間の色分布が略等しい色分布であるか否か又は前記検出された複数の水平線間の色分布が略等しい色分布であるか否かを判定する色分布判定部を有し、
前記色分布判定部により前記検出された複数の垂直線間の色分布が略等しい色分布であると判定された場合には前記複数の垂直線の端部を結ぶ線を前記文字領域候補線と判定し、前記検出された複数の水平線間の色分布が略等しい色分布である場合には前記複数の水平線の端部を結ぶ線を前記文字領域候補線と判定する請求項１に記載の画像処理装置。
前記文字領域推定部は、
前記文字領域候補線に沿った方向の陰影分布を検出する陰影検出部と、
前記陰影検出部によって検出された陰影分布に従って前記文字領域候補を推定する文字領域候補推定部と、
を有する請求項１又は２に記載の画像処理装置。
前記文字領域候補推定部は、前記陰影検出部によって検出された陰影分布が規則的な形状の単一階調部を含んでおらず、かつ、前記文字領域候補線に沿った方向に文字を示すパターンを含む領域を検出できたか又は前記単一階調部以外が線で構成されたパターンを含む領域を検出できた場合に、前記文字を示すパターンを含む領域又は前記単一階調部以外が線で構成されたパターンを含む領域を前記文字領域候補と推定する請求項３に記載の画像処理装置。
前記文字領域候補の情報に従って前記画像における前記文字領域候補の存在を強調する制御部をさらに具備する請求項１に記載の画像処理装置。
前記文字領域候補の画像をユーザに撮影させるための関連付け撮影モードを有する請求項１に記載の画像処理装置。
取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定することと、
前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定することと、
前記推定された文字領域候補の情報を出力することと、
を具備し、
前記文字領域候補線の判定は、
前記画像内の複数の垂直線を検出することと、
前記画像内の複数の水平線を検出することと、
前記検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出することと、
前記検出された色分布によって前記文字領域候補線を判定することと、
を有する画像処理方法。
取得された画像内における文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定することと、
前記文字領域候補線に沿って文字の配列されている可能性が高い領域を文字領域候補として推定することと、
前記推定された文字領域候補の情報を出力することと、
をコンピュータに実行させるための画像処理プログラムであって、
前記文字領域候補線の判定において、
前記画像内の複数の垂直線を検出することと、
前記画像内の複数の水平線を検出することと、
前記検出された複数の垂直線間の色分布又は前記検出された複数の水平線間の色分布を検出することと、
前記検出された色分布によって前記文字領域候補線を判定することと、
をコンピュータに実行させるための画像処理プログラム。