WO2017010351A1

WO2017010351A1 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: WO2017010351A1
Application number: PCT/JP2016/069884
Authority: WO
Inventors: 栄劉
Original assignee: 楽天株式会社
Priority date: 2015-07-10
Filing date: 2016-07-05
Publication date: 2017-01-19
Also published as: TWI633498B; JPWO2017010351A1; US10572759B2; JP6294572B2; JPWO2017009910A1; CA2991106C; TW201705042A; WO2017009910A1; US20180189589A1; CA2991106A1

Abstract

画像に含まれる文字群の領域を迅速に特定する。画像処理装置（１）の画像取得手段（１０１）は、画像データを記憶する手段（１００）に記憶された前記画像データを取得する。拡張手段（１０４）は、画像取得手段（１０１）により取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる。文字領域判定手段（１０８）は、拡張手段（１０４）により拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する。処理実行手段（１０９）は、文字領域判定手段（１０８）により文字領域であると判定された領域に基づいて、所定の処理を実行する。

Description

画像処理装置、画像処理方法、及びプログラム

　本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

　従来、光学文字認識（ＯＣＲ：Optical Character Recognition）のように、画像内の文字群の各文字に対して個別に文字認識を行う技術が知られている。例えば、特許文献１には、２値化画像内を縦方向及び横方向に繰り返し走査して、黒画素が存在しない白ラインで挟まれた領域を抽出して、各領域に対して文字が含まれるか否かを判定する技術が記載されている。

特開平５－４０８４９号公報

　しかしながら、従来の技術では、例えば、画像内の文字群をひとかたまりとして特定したいような場合であっても、当該文字群に含まれる各文字の領域を抽出して、当該領域に対してＯＣＲを利用して個別に文字認識をすることになるので、画像内の文字群の領域を特定するのに時間がかかっていた。

　本発明は上記課題に鑑みてなされたものであって、その目的は、画像に含まれる文字群の領域を迅速に特定することである。

　上記課題を解決するために、本発明に係る画像処理装置は、画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段と、前記画像取得手段により取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段と、前記拡張手段により拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する文字領域判定手段と、前記文字領域判定手段により文字領域であると判定された領域に基づいて、所定の処理を実行する処理実行手段と、を含む。

　本発明に係る画像処理方法は、画像データを記憶する手段に記憶された前記画像データを取得する画像取得ステップと、前記画像取得ステップにより取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張ステップと、前記拡張ステップにより拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する文字領域判定ステップと、前記文字領域判定ステップにより文字領域であると判定された領域に基づいて、所定の処理を実行する処理実行ステップと、を含む。

　本発明に係るプログラムは、画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段、前記画像取得手段により取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段、前記拡張手段により拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する文字領域判定手段、前記文字領域判定手段により文字領域であると判定された領域に基づいて、所定の処理を実行する処理実行手段、としてコンピュータを機能させる。

　本発明に係る情報記憶媒体は、上記記載のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。

　また、本発明の一態様によれば、前記画像処理装置は、前記画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、前記拡張手段により拡張した領域と、が結合することを制限する結合制限手段を更に含む、ことを特徴とする。

　また、本発明の一態様によれば、前記結合制限手段は、前記画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域を背景色で塗りつぶすことによって、前記拡張手段により拡張した領域と結合することを制限する、ことを特徴とする。

　また、本発明の一態様によれば、前記画像処理装置は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が前記文字領域判定手段の判定対象となることを制限する判定制限手段を更に含む、ことを特徴とする。

　また、本発明の一態様によれば、前記判定制限手段は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域を背景色で塗りつぶすことによって、前記文字領域判定手段の判定対象となることを制限する、ことを特徴とする。

　また、本発明の一態様によれば、前記画像処理装置は、前記拡張手段により拡張して結合した一部の領域の指定操作を受け付ける指定操作受付手段を更に含み、前記文字領域判定手段は、前記指定操作受付手段により受け付けられた指定操作により指定された一部の領域が文字領域であるか否かを判定する、ことを特徴とする。

　また、本発明の一態様によれば、前記処理実行手段は、前記画像が表示された表示手段において、前記文字領域判定手段により文字領域であると判定された領域内を拡大して表示させる、ことを特徴とする。

　本発明によれば、画像に含まれる文字群の領域を迅速に特定することが可能になる。

本実施形態における電子書籍表示装置のハードウェア構成を示す図である。電子書籍表示装置で実現される機能の一例を示す機能ブロック図である。電子書籍画像の一例を示す図である。領域の大きさの説明図である。２値化され反転された電子書籍画像を示す図である。図５に示す電子書籍画像から抽出された輪郭を示す図である。基準以上の大きさの輪郭線を拡大した後の各輪郭線の状態を示す図である。拡大した輪郭線が重畳された電子書籍画像を示す図である。拡張部の処理内容の説明図である。拡張部の処理内容の説明図である。拡張部により領域が拡張された後の状態を示す図である。輪郭の大きさが基準未満である領域が背景色で塗りつぶされた後の状態を示す図である。電子書籍画像内の文字領域候補の一例を示す図である。学習データを用いた文字領域の判定処理の説明図である。文字群が拡大表示される様子を示す図である。電子書籍表示装置において実行される処理の一例を示すフロー図である。

［１．電子書籍表示装置のハードウェア構成］
　以下、本発明に係る実施形態を図面に基づき詳細に説明する。図１は、本実施形態における電子書籍表示装置（画像処理装置の一例）のハードウェア構成を示す図である。電子書籍表示装置１は、ユーザが操作するコンピュータであり、例えば、携帯電話機（スマートフォンを含む）、携帯情報端末（タブレット型コンピュータを含む）、電子書籍リーダー端末、又はパーソナルコンピュータ等である。図１に示すように、電子書籍表示装置１は、制御部１０、記憶部１１、通信部１２、操作部１３、表示部１４、及び入出力部１５を含む。

　制御部１０は、例えば、一又は複数のマイクロプロセッサを含む。制御部１０は、記憶部１１に記憶されたプログラムやデータに従って処理を実行する。記憶部１１は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭであり、補助記憶部は、ハードディスク又はソリッドステートドライブ等である。通信部１２は、ネットワークカード等の通信インタフェースである。

　操作部１３は、一般的な入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスである。操作部１３は、ユーザの操作内容を制御部１０に伝達する。表示部１４は、例えば、液晶表示部又は有機ＥＬ表示部等である。表示部１４は、制御部１０の指示に従って画面を表示する。入出力部１５は、外部機器とのデータの入出力を行う入出力インタフェースである。例えば、入出力部１５は、コンピュータ読み取り可能な情報記憶媒体（例えば、光ディスクやメモリカード等）からデータやプログラムを読み取る。

　なお、記憶部１１に記憶されるものとして説明するプログラム及びデータは、ネットワークに接続されたサーバコンピュータから、通信部１２を介して記憶部１１に供給されるようにしてもよいし、情報記憶媒体から、入出力部１５を介して記憶部１１に供給されるようにしてもよい。また、電子書籍表示装置１のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。

［２．電子書籍表示装置において実現される機能］
　図２は、電子書籍表示装置１で実現される機能の一例を示す機能ブロック図である。図２に示すように、電子書籍表示装置１では、データ記憶部１００、画像取得部１０１、表示制御部１０２、結合制限部１０３、拡張部１０４、判定制限部１０５、文字領域候補記録部１０６、指定操作受付部１０７、文字領域判定部１０８、及び処理実行部１０９が実現される。データ記憶部１００は、記憶部１１を主として実現され、他の各機能は、制御部１０を主として実現される。

［２－１．データ記憶部］
　データ記憶部１００は、電子書籍などの画像に関する各種データを記憶する。例えば、データ記憶部１００は、電子書籍などの画像の画像データを記憶する。電子書籍は、表示部１４に電子的に表示される書籍であればよく、例えば、漫画、絵本、又は雑誌である。電子書籍は、少なくとも文字を含む。電子書籍は、文字以外に、絵・写真・図形等を含むようにしてよい。なお、ここでの絵とは、人が手で描画した絵をスキャナで読み込んで電子化したものに限らず、人がコンピュータを使って描画したＣＧを含む意味である。画像データのデータ形式は、一般的に電子書籍で用いられているデータ形式を用いればよい。

　電子書籍は、複数のページにより構成されてもよいし、１ページのみから構成されてもよい。電子書籍が複数のページから構成される場合には、ページごとに画像データが存在してもよいし、これら複数ページをひとまとめにした１つの画像データのみが存在してもよい。また、電子書籍は、カラーであってもよいし、モノクロ又はグレースケールであってもよい。本実施形態では、複数ページから構成されるグレースケールの漫画を、電子書籍の一例として説明する。

　なお、データ記憶部１００は、画像データ以外のデータを記憶していてもよい。例えば、データ記憶部１００は、画像データに付帯する付帯データを記憶してもよい。付帯データは、各ページのページ数等である。他にも例えば、データ記憶部１００は、電子書籍リーダーのアプリケーション（ビューワアプリケーション）を記憶してもよい。また例えば、データ記憶部１００は、後述する文字領域の判定のための学習データを記憶してもよい。

［２－２．画像取得部］
　画像取得部１０１は、画像データを記憶するデータ記憶部１００に記憶された画像データを取得する。本実施形態のように、電子書籍が複数のページから構成される場合、画像取得部１０１は、これら全てのページの画像データを一度に取得してもよいし、一部のページの画像データのみを取得してもよい。画像取得部１０１が一部のページの画像データのみを取得する場合、画像取得部１０１は、表示対象のページの画像データのみを取得してもよいし、表示対象のページとその前後のページの画像データを取得してもよい。なお、表示対象となるのは、１ページだけであってもよいし、見開き等のように複数ページであってもよい。更に、本実施形態のように電子書籍が漫画の場合、１ページの中の１コマのみが表示対象となってもよい。本実施形態では、複数ページのうちの何れか１ページが表示対象になる場合を例に挙げて説明する。

［２－３．表示制御部］
　表示制御部１０２は、画像取得部１０１により取得された画像データに基づいて、電子書籍画像を表示部１４に表示させる。図３は、電子書籍画像の一例を示す図である。本実施形態では、複数ページからなる漫画を電子書籍の一例として説明するので、図３に示すように、電子書籍画像２０は、漫画の各ページである。電子書籍画像２０は、１又は複数のコマ２１を含む。コマ２１は、ページ内で絵や文字が描画される区画である。図３の例では、電子書籍画像２０は、２つのコマ２１（これらをコマ２１Ａ，２１Ｂとも記載する）を含む。図３の例では、各コマ２１は、枠で囲われているが、枠で囲われていなくてもよい。

　各コマ２１は、絵、吹き出し線、文字等の物体を含む。吹き出し線は、漫画のキャラクタの台詞を表す。キャラクタは、漫画の登場人物であり、人間以外にも動物・ロボット・架空の生物であってもよい。吹き出し線の内側には、キャラクタの台詞を表す１又は複数の文字が含まれている。以降、複数の文字のまとまりのことを文字群という。図３の例では、コマ２１Ａには、キャラクタ２２Ａ、吹き出し線２３Ａ、文字群２４Ａ、及び太陽２５Ａが描かれており、コマ２１Ｂには、キャラクタ２２Ｂ，２２Ｃ、吹き出し線２３Ｂ、文字群２４Ｂ、及び食器２５Ｂが描かれている。なお、キャラクタ２２Ａ～２２Ｃ、太陽２５Ａ、及び食器２５Ｂは、上記説明した絵の一例である。吹き出し線２３Ａは、キャラクタ２２Ａの台詞を示し、吹き出し線２３Ｂは、キャラクタ２２Ｃの台詞を示す。

　なお、本実施形態のように表示対象が１ページの場合、表示制御部１０２は、図３のようにページの全体を表示させてもよいし、ページ内の一部のみを表示させてもよい。ページ内の一部のみを表示させる場合、表示制御部１０２は、ユーザが操作部１３を用いて指示した部分を表示させることになる。

［２－４．結合制限部］
　結合制限部１０３は、電子書籍画像２０に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、後述する拡張部１０４により拡張した領域と、が結合することを制限する。例えば、文字群２４Ａが拡張して吹き出し線２３Ａに結合すると、文字群２４Ａを文字のかたまりとして検出できなくなってしまう。このため、結合制限部１０３は、下記に説明するようにして、これらの結合を制限することで、文字群２４Ａの検出の精度を高めるようにしている。

　なお、本実施形態では、説明の簡略化のため、結合制限部１０３、拡張部１０４、判定制限部１０５、及び文字領域候補記録部１０６による画像処理の対象となるのは、表示部１４に表示された電子書籍画像２０である場合を説明するが、表示部１４に表示される前の電子書籍画像２０が画像処理の対象となってもよい。この場合、表示部１４に表示されたページの前後のページの電子書籍画像２０が画像処理の対象となるようにしてよい。

　領域とは、電子書籍画像２０のうち物体が描かれている部分（画素）であり、背景色（例えば、白）以外の色（例えば、黒又はグレー）の部分である。例えば、キャラクタ２２Ａ～２２Ｃ、吹き出し線２３Ａ，２３Ｂ、文字群２４Ａ，２４Ｂ、太陽２５Ａ、及び食器２５Ｂ等の物体が描かれている部分が、本実施形態でいう領域に相当する。なお、物体は、電子書籍画像２０の背景以外の部分に表れている描画物といえる。

　輪郭は、領域を縁取ったものであり、本実施形態では、電子書籍表示装置１が線として表現したものを輪郭線と記載する。領域は、輪郭の内部、又は、輪郭と輪郭で挟まれた部分ということもできる。例えば、文字群２４Ａであれば、「Ｌ」の文字は、輪郭の内部が領域であり、「Ｏ」の文字は、外周の輪郭と内周の輪郭とに挟まれた部分が領域である。

　輪郭の大きさは、例えば、輪郭の幅、輪郭線の長さ、輪郭の内側の面積等であってよいが、本実施形態では、輪郭の外接矩形の大きさを、輪郭の大きさとして用いる。領域の大きさは、例えば、領域の幅であってよいが、本実施形態では、領域の外接矩形の大きさを、領域の大きさとして用いる。

　図４は、輪郭と領域の大きさの説明図である。図４のＸｓ軸及びＹｓ軸は、スクリーン座標系の座標軸である。ここでは、領域の一例として吹き出し線２３Ａを挙げて、吹き出し線２３Ａの輪郭の大きさと、吹き出し線２３Ａ自身の大きさと、について説明する。図４では、吹き出し線２３Ａの外周輪郭線と内周輪郭線を破線で描き、吹き出し線２３Ａ自身を実線で描いている。なお、図４では、説明の都合上、実線と破線の間に間隔を設けているが、実際には、これらに間隔はない。

　例えば、輪郭線の外接矩形は、輪郭線のうち、Ｘｓ座標の最小値と及び最大値の間であり、かつ、Ｙｓ座標の最小値と最大値の間の領域である。図４に示す例では、外周輪郭線の外接矩形は、点Ｐ_１Ａ～Ｐ_４Ａを頂点とする長方形なので、この長方形の大きさが外周輪郭線の大きさに相当する。一方、内周輪郭線の外接矩形は、点Ｐ_１Ｂ～Ｐ_４Ｂを頂点とする長方形なので、この長方形の大きさが内周輪郭線の大きさに相当する。

　また例えば、吹き出し線２３Ａの外接矩形は、吹き出し線２３Ａが占める画素のうち、Ｘｓ座標の最小値と最大値の間であり、かつ、Ｙｓ座標の最小値と最大値の間の領域である。吹き出し線２３Ａの外接矩形は、点Ｐ_１Ｃ～Ｐ_４Ｃを頂点とする長方形なので、この長方形の大きさが吹き出し線２３Ａ自身の大きさに相当する。

　結合制限部１０３は、輪郭の大きさと領域自身の大きさの何れを用いてもよいが、本実施形態では、輪郭の大きさを用いる場合を説明する。結合制限部１０３は、電子書籍画像２０内の各領域の輪郭の外接矩形を抽出し、外接矩形の大きさが基準以上であるか否かを判定する。なお、大きさを示す数値としては、外接矩形の縦幅及び横幅の少なくとも一方が用いられてもよいし、外接矩形の面積が用いられてもよい。他にも例えば、外接矩形の対角線の長さが、大きさを示す数値として用いられてもよい。本実施形態では、大きさを示す数値として、外接矩形の縦幅と横幅の両方が用いられる場合を例に挙げて説明する。

　大きさの基準を示す閾値Ｔ_１は、固定値であってもよいし、可変値であってもよい。閾値Ｔ_１が固定値である場合には、データ記憶部１００にその値が記憶されており、閾値Ｔ_１が可変値である場合には、データ記憶部１００に記憶された数値をもとに計算されることになる。本実施形態では、閾値Ｔ_１が固定値である場合を説明する。例えば、結合制限部１０３は、外接矩形の縦幅と横幅がそれぞれ閾値Ｔ_１以上であるか否かを判定することによって、各輪郭の大きさが基準以上であるか否かを判定する。

　本実施形態では、結合制限部１０３は、領域の輪郭の大きさが基準以上である場合、当該領域を背景色で塗りつぶすことによって、後述する拡張部１０４により拡張した領域と結合することを制限する場合を説明する。背景色は、画像に対して指定された所定の色であり、例えば、画像内で占める割合が最も多い色である。例えば、背景色は、白又は黒である。なお、本実施形態における結合とは、ある領域が他の領域と接触又は重畳して１つの領域となることである。

　例えば、吹き出し線２３Ａの輪郭は比較的大きいので、結合制限部１０３は、吹き出し線２３Ａの輪郭を基準以上の大きさであると判定し、吹き出し線２３Ａを背景色で塗りつぶすことになる。その結果、吹き出し線２３Ａと、後述する拡張部１０４により拡張された文字群２４Ａと、が結合することを防止することができるようになっている。具体的には、本実施形態では、結合制限部１０３は、下記のように、（１）２値化反転処理、（２）輪郭抽出処理、（３）輪郭線拡大処理、（４）拡大輪郭線重畳処理を実行することによって、吹き出し線２３Ａ等を塗りつぶすことになる。

［２値化反転処理］
　まず、結合制限部１０３は、電子書籍画像２０に対して２値化処理と反転処理を実行する。図５は、２値化され反転された電子書籍画像２０を示す図である。結合制限部１０３は、図３に示す電子書籍画像２０の各画素の画素値と閾値に基づいて２値化処理を実行し、各画素を白又は黒に設定する。２値化処理自体は、公知の種々のアルゴリズムを適用可能であり、例えば、Ｐタイル法やモード法によって閾値を定めてもよい。結合制限部１０３は、２値化した各画素の画素値を反転させ、白の画素を黒にして黒の画素を白にすることによって、図４に示す電子書籍画像２０を、図５に示す状態にする。反転処理自体も、公知の種々の手法を適用可能であり、例えば、各色の画素値の最大値（８ビットグレースケールなら２５５）から画素値の現在値を引くことで反転後の画素値を計算してもよい。

［輪郭抽出処理］
　結合制限部１０３は、２値化して反転させた電子書籍画像２０（図５）に対して輪郭抽出処理を実行し、閉領域の輪郭を抽出する。図６は、図５に示す電子書籍画像２０から抽出された輪郭線を示す図である。図６では、結合制限部１０３が抽出した輪郭線を破線で示している。輪郭線は、所定の太さの線（例えば、１ピクセル）であればよい。また、輪郭線の色は、予め定められた色であればよいが、ここでは黒とする。これは、２値化して反転させた電子書籍画像２０（図５）内の吹き出し線２３Ａ，２３Ｂが白で描かれているため、これを背景色である黒で塗りつぶすためである。

　なお、輪郭抽出処理自体は、公知の種々の輪郭抽出アルゴリズムを適用可能であり、例えば、微分フィルタ、Prewittフィルタ、又はSobelフィルタ等を用いて画像内のエッジを検出することによって、各領域の輪郭を抽出するようにしてよい。また、図５に示す電子書籍画像２０では、キャラクタ２２Ａの左側頭部と左肩がコマ２１Ａの輪郭に触れているので、図６に示すように、キャラクタ２２Ａとコマ２１Ａの輪郭線は一連のものになっている。

［輪郭線拡大処理］
　結合制限部１０３は、輪郭抽出処理によって抽出した輪郭線のうち、基準以上の大きさの輪郭線を拡大する。結合制限部１０３は、各輪郭線の外接矩形を抽出して、その大きさが閾値Ｔ_１以上であるか否かを判定することになる。先述したように、本実施形態では、外接矩形の縦幅と横幅を大きさとして用いるので、結合制限部１０３は、外接矩形の縦幅と横幅がそれぞれ閾値Ｔ_１以上であるか否かを判定することによって、各輪郭線の大きさが基準以上であるか否かを判定する。

　結合制限部１０３は、基準以上の大きさの輪郭線を拡大する。輪郭線を拡大するとは、輪郭線を太くすることである。輪郭線の拡大の程度（線を太らせるピクセル数）は、固定値であってもよいし、可変値であってもよい。固定値である場合には、データ記憶部１００にその値が記憶されており、可変値である場合には、データ記憶部１００に記憶された数値をもとに計算されることになる。例えば、結合制限部１０３は、輪郭線の位置や輪郭線の大きさに基づいて、当該輪郭線の拡大の程度を計算してもよい。この場合、輪郭線が画像の中央付近にあるほど、その輪郭線が吹き出し線２３Ａ，２３Ｂのものである蓋然性が高いので、輪郭線の拡大の程度を大きくして、より確実に塗りつぶせるようにしてもよい。また例えば、輪郭線が大きいほど、その輪郭線が吹き出し線２３Ａ，２３Ｂのものである蓋然性が高いので、輪郭線の拡大の程度を大きくして、より確実に塗りつぶせるようにしてもよい。本実施形態では、拡大の程度が固定値であり、所定ピクセル分だけ線を太らせる場合を説明する。

　図７は、基準以上の大きさの輪郭線を拡大した後の各輪郭線の状態を示す図である。図７に示す例では、コマ２１Ａ，２１Ｂの輪郭線、キャラクタ２２Ａ～２２Ｃの一部の輪郭線、吹き出し線２３Ａ，２３Ｂの輪郭線、及び太陽２５Ａの一部の輪郭線が所定ピクセル分だけ太くなっている。図７に示すように、結合制限部１０３が輪郭線を拡大させると、近くにある輪郭線同士が結合して１つの太い輪郭線になることがある。例えば、図７に示す例では、吹き出し線２３Ａ，２３Ｂの外周の輪郭線と内周の輪郭線がそれぞれ拡大し、これらが互いに結合して１つの太い輪郭線となっている。

［拡大輪郭線重畳処理］
　結合制限部１０３は、２値化して反転させた電子書籍画像２０（図５）に、拡大した輪郭線（図７）を重畳させる。図８は、拡大した輪郭線が重畳された電子書籍画像２０を示す図である。図８に示すように、拡大して太い１本になった輪郭線で吹き出し線２３Ａ，２３Ｂを重畳したことによって、吹き出し線２３Ａ，２３Ｂが黒く塗りつぶされている。このため、後述する処理によって、拡張部１０４が文字群２４Ａ，２４Ｂを拡張したとしても、吹き出し線２３Ａ，２３Ｂに結合しないことになる。

　上記のようにして、吹き出し線２３Ａ，２３Ｂを背景色で塗りつぶすことができる。なお、吹き出し線２３Ａ，２３Ｂを背景色で塗りつぶす方法は、上記説明した方法に限られない。例えば、結合制限部１０３は、基準以上の大きさの輪郭線で挟まれた領域（例えば、吹き出し線２３Ａ，２３Ｂ）を選択して、その選択範囲についてのみ、もう一度色の反転処理をしてもよい。このようにすれば、例えば、図５に示す吹き出し線２３Ａ，２３Ｂの色が白から黒に戻るので、吹き出し線２３Ａ，２３Ｂを黒く塗りつぶすことができる。他にも例えば、結合制限部１０３は、基準以上の大きさの輪郭線で挟まれた領域であり、かつ、当該輪郭線の間隔が一定距離未満である領域を、背景色で塗りつぶすようにしてもよい。更に、例えば、結合制限部１０３は、輪郭線で挟まれた領域が一定距離以上続いている区間を、背景色で塗りつぶすようにしてもよい。結合制限部１０３の処理対象となる領域に、このような条件を追加することによって、当該条件によって特定される領域が、吹き出し線２３Ａ，２３Ｂのような線が描かれた部分である蓋然性が高まる。このため、より確実に、吹き出し線２３Ａ，２３Ｂのような線の部分を塗りつぶし、文字群２４Ａ，２４Ｂと結合することを防止することができる。

　また例えば、吹き出し線２３Ａ，２３Ｂと、文字群２４Ａ，２４Ｂと、を結合させないようにする方法は、吹き出し線２３Ａ，２３Ｂを背景色で塗りつぶす方法に限られない。例えば、結合制限部１０３は、基準以上の大きさの領域の位置（領域を構成する画素の位置）をデータ記憶部１００に記録しておき、後述する拡張部１０４により拡張された領域が当該画素に含まれても、その画素は同じ領域とみなさないようにしてもよい。同じ領域とみなさないためには、例えば、同一領域を抽出するラベリング処理において、同じ番号を振らないようにすればよい。他にも例えば、結合制限部１０３は、基準以上の大きさの輪郭線の方向には、拡張部１０４が領域を拡張しないように制限をするようにしてもよい。このようにすることでも、例えば、文字群２４Ａ，２４Ｂが吹き出し線２３Ａ，２３Ｂの方向には拡張しないので、吹き出し線２３Ａ，２３Ｂと、文字群２４Ａ，２４Ｂと、が結合することを防止することができる。

［２－５．拡張部］
　拡張部１０４は、画像取得部１０１により取得された画像データが示す電子書籍画像２０に含まれる物体を示す複数の領域の各々を拡張して結合させる。なお、拡張部１０４は、図８に示す電子書籍画像２０内の全ての領域を拡張してもよいし、結合制限部１０３が抽出した輪郭の大きさが基準以上の領域は拡張せず、輪郭の大きさが基準未満の領域を拡張するようにしてもよい。即ち、例えば、拡張部１０４は、キャラクタ２２Ａ，２２Ｂ，２２Ｃの目・鼻・口等、文字群２４Ａ，２４Ｂの各文字、太陽２５Ａの一部、食器２５Ｂのように、輪郭の大きさが基準未満のもののみを拡張してもよい。

　なお、領域を拡張するとは、領域を太らせることであり、領域が占める面積を大きくすることである。領域の拡張の程度は、固定値であってもよいし、可変値であってもよい。固定値である場合には、データ記憶部１００にその値が記憶されており、可変値である場合には、データ記憶部１００に記憶された数値をもとに計算されることになる。例えば、拡張部１０４は、画像における領域の位置や大きさに基づいて、当該領域の拡張の程度を計算してもよい。この場合、領域が画像の中央付近にあるほど、その領域が文字である蓋然性が高いので、領域の拡張の程度を大きくして、より確実に他の文字と結合させるようにしてもよい。また、他の領域との距離が近いほど、その領域が文字群の１文字である蓋然性が高いので、領域の拡張の程度を大きくして、より確実に他の文字と結合させるようにしてもよい。また例えば、領域の大きさが一定範囲（文字と推測される程度の広さ）におさまっていれば、その領域が文字である蓋然性が高いので、領域の拡張の程度を大きくして、より確実に他の文字と結合させるようにしてもよい。本実施形態では、拡張の程度が固定値であり、所定ピクセル分だけ領域を太らせる場合を説明する。

　図９及び図１０は、拡張部１０４の処理内容の説明図である。ここでは、拡張部１０４が、文字群２４Ａの各文字を拡張する場合を例に挙げて説明する。例えば、図９に示すように、拡張部１０４は、「Ｈ」を所定ピクセル分だけ拡張する。別の言い方をすれば、拡張部１０４は、「Ｈ」から所定距離以内にある画素（即ち、「Ｈ」の周囲の画素）を白で塗りつぶす。拡張部１０４は、文字群２４Ａの「ＨＥＬＬＯ！　ＨＯＷ　ＡＲＥ　ＹＯＵ？」の「Ｈ」以外の文字も、「Ｈ」と同様に所定ピクセル分だけ拡張する。拡張部１０４が文字群２４Ａの各文字を拡張させると、図１０に示すように、文字群２４Ａの各文字が結合して、文字群２４Ａを１つの領域とすることができる。

　図１１は、拡張部１０４により領域が拡張された後の状態を示す図である。図１１に示すように、ここでは、文字群２４Ａ，２４Ｂに含まれる各文字の領域が拡張して互いに結合し、１つの領域になっている。他にも例えば、食器２５Ｂの各領域も拡張して互いに結合している。他の領域については、拡張はされたものの、付近に別の領域が無かったため結合していない。

［２－６．判定制限部］
　判定制限部１０５は、拡張部１０４により拡張した領域（図１２）の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が文字領域判定部１０８の判定対象となることを制限する。なお、判定制限部１０５の説明でも、結合制限部１０３と同様、輪郭の大きさが用いられる場合を説明する。

　上記の基準を示す閾値Ｔ_２は、閾値Ｔ_１よりも小さくてよい。なお、閾値Ｔ_２が固定値であってもよいし、可変値であってもよい点については、閾値Ｔ_１と同様である。本実施形態では、外接矩形の縦幅と横幅を大きさとして用いるので、判定制限部１０５は、外接矩形の縦幅と横幅がそれぞれ閾値Ｔ_２以上であるか否かを判定することによって、拡張部１０４により拡張した領域の輪郭が基準未満であるか否かを判定する。

　本実施形態では、判定制限部１０５は、拡張部１０４により拡張した領域の輪郭の大きさが基準未満である場合、当該領域を背景色で塗りつぶすことによって、文字領域判定部１０８の判定対象となることを制限する場合を説明する。図１２は、輪郭の大きさが基準未満である領域が背景色で塗りつぶされた後の状態を示す図である。例えば、キャラクタ２２Ａ，２２Ｃの目・鼻・口等、太陽２５Ａの一部の輪郭が基準未満の大きさであるため、図１２に示すように、判定制限部１０５は、これらを黒で塗りつぶしている。

　なお、基準未満の大きさの領域を背景色で塗りつぶす以外の方法で、文字領域判定部１０８による判定処理の対象外とするようにしてもよい。例えば、判定制限部１０５は、基準未満の大きさの領域の位置をデータ記憶部１００に記録しておき、ユーザがその領域を指定しても文字領域判定部１０８による判定処理を実行しないようにしてもよい。

［２－７．文字領域候補記録部］
　文字領域候補記録部１０６は、電子書籍画像２０内の文字領域候補を示すデータをデータ記憶部１００に記録する。文字領域候補は、文字領域判定部１０８による文字領域判定部１０８による判定対象となる領域である。別の言い方をすれば、文字領域候補は、文字が含まれている可能性のある領域である。本実施形態では、判定制限部１０５による処理が実行された後の電子書籍画像２０（図１２）内の白画素の領域が、文字領域候補となる。

　図１３は、文字領域候補の一例を示す図である。文字領域候補記録部１０６は、図１２に示す電子書籍画像２０に対して輪郭抽出処理を実行して、白画素の領域の輪郭（図１３に破線で示す）を抽出する。輪郭抽出処理自体は、結合制限部１０３による処理と同様であってよい。ここでは、文字領域候補記録部１０６は、閉領域の輪郭を抽出するので、図１２に示すキャラクタ２２Ａについては輪郭を抽出しないことになる。文字領域候補記録部１０６は、抽出した輪郭線の位置を示すデータをデータ記憶部１００に記録する。

　なお、ここでは文字領域候補を識別するデータとして、輪郭線の位置を示すデータを例に挙げるが、文字領域候補を識別可能なデータであればよい。例えば、文字領域候補記録部１０６は、図１２に示す電子書籍画像２０に対してラベリング処理を実行し、白画素が連続する画素に同じ番号を付与することによって、文字領域候補を識別するデータを記録するようにしてもよい。

［２－８．指定操作受付部］
　指定操作受付部１０７は、拡張部１０４により拡張して結合した一部の領域の指定操作を受け付ける。指定操作は、電子書籍画像２０内の領域を指定するための操作であればよく、例えば、電子書籍画像２０内の位置を指定する操作である。本実施形態では、操作部１３により表示部１４の表示画面内の位置を指定する操作が指定操作に相当する。操作部１３により指定された位置を含む領域が、指定操作により指定されたことになる。本実施形態では、指定操作は、文字領域候補のうちの何れかを指定する操作といえる。

［２－９．文字領域判定部］
　文字領域判定部１０８は、拡張部１０４により拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する。文字領域は、１つ以上の文字を含む画像内の領域である。例えば、文字領域判定部１０８による判定対象となるのは、文字領域候補記録部１０６により記録された文字領域候補の全てであってもよいし、一部のみであってもよい。例えば、文字領域判定部１０８は、指定操作受付部１０７により受け付けられた指定操作により指定された一部の領域が文字領域であるか否かを判定する。本実施形態では、指定操作受付部１０７は、文字領域候補の指定を受け付けるので、文字領域判定部１０８は、文字領域候補内に文字が含まれるか否かを判定することになる。なお、本実施形態では、文字領域判定部１０８は、図３に示す状態の電子書籍画像２０を用いて判定処理を実行する場合を説明するが、使用する画像の状態に応じて文字領域の判定方法を変えるようにすれば、図５や図８に示す状態の電子書籍画像２０を用いてもよい。

　例えば、文字パターンの学習データをデータ記憶部１００に記憶させておき、文字領域判定部１０８は、文字領域候補と、学習データが示す文字パターンと、を比較することによって、文字領域候補が文字領域であるか否かを判定する。学習データには、複数の判定項目が定義されており、例えば、下記のような判定項目によって文字領域であるかの判定が行われる。

　図１４は、学習データを用いた文字領域の判定処理の説明図である。まず、第１の判定項目として、文字領域判定部１０８は、文字領域候補の全体の大きさが基準以上であるか否かを判定する。文字領域候補の大きさは、外接矩形の大きさを用いてもよいし、文字領域候補のピクセル数をカウントしてもよい。ここでは、外接矩形を用いる場合を説明する。この基準を示す閾値Ｔ_３は、閾値Ｔ_１，Ｔ_２と同じであってもよいし、異なっていてもよい。また、閾値Ｔ_３は、閾値Ｔ_１，Ｔ_２と同様、固定値であってもよいし、可変値であってもよい。文字領域判定部１０８は、外接矩形の大きさが基準以上である場合、文字領域と判定する。

　図１４に示すように、文字領域判定部１０８は、外接矩形をｎマス×ｍマス（ｎ，ｍは、ともに２以上の整数。ここでは、ｎ＝ｍ＝１０とする。）の矩形領域に区切る。そして、矩形領域の垂直ライン（図１４では１列目～１０列目の各ライン）及び水平ライン（図１４では１行目～１０行目の各ライン）のそれぞれについて、第２の判定項目～第５の判定項目について判定する。なお、全てのマスについて判定処理を行ってもよいし、一部のマス（例えば、外周の一部のマスを除いたマス）についてのみ判定処理を行ってもよい。

　第２の判定項目として、文字領域判定部１０８は、各ラインの白ピクセルの数が基準数以上であるか否かを判定する。この基準数は、固定値であってもよいし、可変値であってもよい。文字領域判定部１０８は、白ピクセルの数が基準数以上である場合、文字領域と判定する。第３の判定項目として、文字領域判定部１０８は、各ラインの画素を端から走査し、白画素と黒画素とが反転した数をカウントし、当該カウント数が基準数以上であるか否かを判定する。この基準数も、固定値であってもよいし、可変値であってもよい。文字領域判定部１０８は、カウント数が基準数以上である場合、文字領域と判定する。

　第４の判定項目として、文字領域判定部１０８は、各ラインの画素を端から走査し、最初に白の画素を発見した位置が所定の位置であるか否かを判定する。例えば、文字領域判定部１０８は、最初に白の画素を発見した位置が端から基準距離以内であれば、文字領域と判定する。第５の判定項目として、文字領域判定部１０８は、各ラインの画素を端から走査し、最後に白の画素を発見した位置が所定の位置であるか否かを判定する。例えば、文字領域判定部１０８は、最後に白の画素を発見した位置が端から基準距離以内であれば、文字領域と判定する。

　文字領域判定部１０８は、学習パターンに定義された第１の判定項目～第５の判定項目の全てについて文字領域であると判定された場合に、文字領域候補が文字領域であると判定するようにしてもよいし、所定数以上（例えば、３つ以上）の判定項目について文字領域であると判定された場合に、文字領域候補が文字領域であると判定するようにしてもよい。

　なお、文字領域を判定する方法は、上記説明した方法に限られず、公知の種々の手法を適用可能である。例えば、文字領域判定部１０８は、文字の形状のパターンと文字領域候補とを比較して、互いの類似度を計算することによって、文字領域であるか否かを判定してもよい。他にも例えば、教師ありの機械学習手法（ＳＶＭ：Support Vector Machine）を用いて、文字領域であるか否かを判定してもよい。この手法では、学習データを用意しておき、複数の項目をパラメータとして判定アルゴリズムに入力すると、判定アルゴリズムは、入力されたパラメータと学習データとを用いて、文字領域候補が文字領域であるか否かの出力を得ることができるようになっている。このような手法を用いることで、例えば、種々の形状の文字や絵が含まれる漫画のような画像であっても、より確実に文字領域を特定することができる。

［２－１０．処理実行部］
　処理実行部１０９は、文字領域判定部１０８により文字領域であると判定された領域に基づいて、所定の処理を実行する。本実施形態では、所定の処理の一例として、画像を拡大する処理である場合を説明する。即ち、例えば、処理実行部１０９は、電子書籍画像２０が表示された表示部１４において、文字領域判定部１０８により文字領域であると判定された領域内を拡大して表示させる。図１５は、文字群２４Ａが拡大表示される様子を示す図である。図１５に示すように、ユーザが文字群２４Ａに対応する文字領域候補を指定すると、文字領域判定部１０８により文字領域の判定処理が行われるので、処理実行部１０９は、文字領域候補内を切り出した拡大画像２６を表示させる。図１５の例では、処理実行部１０９は、図８に示す電子書籍画像２０の文字領域候補内を切り出して拡大させて表示させるので、拡大画像２６は、色が反転した状態で文字が表示されている。

　なお、処理実行部１０９は、図３に示す電子書籍画像２０の文字領域候補内を切り出して拡大させて表示させてもよい。この場合、拡大画像２６における文字の色は反転しないことになる。また、拡大画像２６に切り出す範囲は、図１５のような長方形に限られず、楕円形等の任意の形状であってよい。また、拡大画像２６の表示位置は、ランダムに決定されてもよいし、ユーザが指定した位置に基づいて定まってもよい。また、拡大画像２６における文字の拡大率は、文字領域候補の大きさに基づいて決まってもよいし、所定の拡大率であってもよい。

［３．電子書籍表示装置において実行される処理］
　図１６は、電子書籍表示装置１において実行される処理の一例を示すフロー図である。図１６に示す処理は、制御部１０が、記憶部１１に記憶されたプログラムに従って動作することによって実行される。本実施形態では、下記に説明する処理が実行されることにより、図２に示す機能ブロックが実現される。例えば、ユーザが操作部１３を用いて、プログラムの起動を指示した場合に、下記の処理が実行される。

　図１６に示すように、制御部１０は、記憶部１１に記憶されたプログラムを起動し（Ｓ１）、操作部１３からの入力に基づいて、ユーザが指定した電子書籍を特定する（Ｓ２）。例えば、Ｓ１において起動するプログラムは、電子書籍リーダーのアプリケーションである。Ｓ１においては、制御部１０は、記憶部１１に画像データが記憶された電子書籍の一覧を表示部１４に表示させ、Ｓ２において、制御部１０は、一覧の中からユーザにより指定された電子書籍を特定することになる。

　制御部１０は、記憶部１１を参照して、ユーザが指定した電子書籍の画像データを取得する（Ｓ３）。なお、記憶部１１には、ユーザが保有する電子書籍の識別情報と、画像データと、が関連付けられて記憶されているものとする。制御部１０は、Ｓ３で取得した画像データに基づいて、電子書籍の１ページ目を表示部１４に表示させる（Ｓ４）。Ｓ４においては、制御部１０は、画像データが示す電子書籍画像２０（図３）を表示部１４に表示させることになる。

　制御部１０は、電子書籍画像２０に対して、２値化処理と反転処理を実行する（Ｓ５）。なお、先述したように、表示部１４に表示される電子書籍画像２０に対してＳ５～Ｓ１１の画像処理が実行される場合を説明するが、表示部１４に表示される電子書籍画像２０の前後のページの電子書籍画像２０に対しても、予めＳ５～Ｓ１１の画像処理を実行しておくようにしてもよい。Ｓ５においては、制御部１０は、２値化して反転した電子書籍画像２０（図５）のデータを生成して記憶部１１に記録する。

　制御部１０は、Ｓ５で生成した電子書籍画像２０内に対して、輪郭抽出処理を実行する（Ｓ６）。Ｓ６においては、制御部１０は、電子書籍画像２０内の輪郭線（図６）を示すデータを生成して記憶部１１に記録する。

　制御部１０は、Ｓ６で抽出した輪郭線のうち、基準以上の大きさの輪郭線を拡大させる（Ｓ７）。Ｓ７においては、制御部１０は、拡大した輪郭線を示すデータ（図７）を生成して記憶部１１に記録する。なお、制御部１０は、このデータを新たに生成するのではなく、Ｓ６で記憶部１１に記録した輪郭線のデータを更新するようにしてもよい。

　制御部１０は、Ｓ５で生成した電子書籍画像２０に、Ｓ７で拡大した輪郭線を重畳させる（Ｓ８）。Ｓ８においては、制御部１０は、重畳後の電子書籍画像２０（図８）を示すデータを生成して記憶部１１に記録する。なお、制御部１０は、このデータを新たに生成するのではなく、Ｓ５で記憶部１１に記録した電子書籍画像２０のデータを更新するようにしてもよい。

　制御部１０は、Ｓ８で輪郭線を重畳させた電子書籍画像２０内の領域を拡張させる（Ｓ９）。Ｓ９においては、制御部１０は、拡張後の電子書籍画像２０（図１１）を示すデータを生成して記憶部１１に記録する。なお、制御部１０は、このデータを新たに生成するのではなく、Ｓ５又はＳ８で記憶部１１に記録した電子書籍画像２０のデータを更新するようにしてもよい。

　制御部１０は、Ｓ９で拡張した電子書籍画像２０の領域のうち、基準未満の大きさの領域を除去する（Ｓ１０）。Ｓ１０においては、制御部１０は、基準未満の大きさの領域を除去した後の電子書籍画像２０（図１２）を示すデータを記憶部１１に記録する。なお、制御部１０は、このデータを新たに生成するのではなく、Ｓ５、Ｓ８、又はＳ９で記憶部１１に記録した電子書籍画像２０のデータを更新するようにしてもよい。

　制御部１０は、Ｓ１０で領域が除去された電子書籍画像２０に対して、輪郭抽出処理を実行する（Ｓ１１）。Ｓ１１の処理内容は、Ｓ６と同様であり、Ｓ１１で抽出される輪郭は、文字領域候補の輪郭である。Ｓ１１においては、制御部１０は、Ｓ１０で領域が除去された電子書籍画像２０内の輪郭線（図１３）を示すデータを生成して記憶部１１に記録する。

　制御部１０は、操作部１３からの入力を受け付ける（Ｓ１２）。ここでは、ユーザは、文字領域候補の指定操作、ページ送り操作、又は終了操作の何れかをすることができるものとする。ユーザが文字領域候補の指定操作をしたと判定された場合（Ｓ１２；指定操作）、制御部１０は、指定された文字領域候補内に文字が含まれるか否かを判定する（Ｓ１３）。Ｓ１３においては、制御部１０は、学習データと文字領域候補内の画素値とに基づいて、文字領域候補内に文字が含まれるか否かを判定する。

　文字領域候補内に文字が含まれると判定された場合（Ｓ１３；Ｙ）、制御部１０は、指定操作により指定された文字領域候補内を拡大表示させる（Ｓ１４）。Ｓ１４においては、制御部１０は、図８に示す電子書籍画像２０から文字領域候補の内部を切り出して、表示部１４に拡大して表示させる。

　一方、ユーザがページ送り操作をしたと判定された場合（Ｓ１１；ページ送り操作）、制御部１０は、次のページを表示部１４に表示させ（Ｓ１５）、Ｓ５の処理に戻る。なお、表示中のページを示す情報は、記憶部１１に記憶されているものとする。Ｓ５に戻った後は、当該次のページに対してＳ５～Ｓ１１の画像処理が実行されて、文字領域候補が抽出されることになる。

　ユーザが終了操作をしたと判定された場合（Ｓ１２；終了操作）、本処理は終了する。なお、Ｓ５～Ｓ１１で記憶部１１に記録されたデータは、本処理の終了時に破棄してもよいし、表示部１４から該当するページが表示されなくなったときに破棄してもよい。他にも例えば、表示部１４に表示されているページとのページ差が基準以上になった場合に破棄してもよい。

　以上説明した電子書籍表示装置１によれば、文字群２４Ａ，２４Ｂの各文字を拡大して互いに結合させ、文字群２４Ａ，２４Ｂの各文字をひとかたまりにしたうえで文字領域であるかを判定することができるので、ＯＣＲのように１文字１文字を個別に文字認識した後にこれらをかたまりにするような場合に比べて、電子書籍画像２０に含まれる文字群２４Ａ，２４Ｂの領域を迅速に特定することができる。例えば、文字領域候補の全体に対して学習データを適用する場合には、文字領域候補の全体的な特徴から文字領域であるかを判定することができるので、ＯＣＲに比べて簡易な処理により文字領域であるかを判定することができる。更に、文字を個別に判定する場合には、ある文字と他の文字が互いに関連する１つの文字群であるのかを特定することができない可能性があるが、電子書籍表示装置１は、文字群２４Ａ，２４Ｂのように、互いに関連する文字同士を文字群のかたまりとして判定することができる。更に、電子書籍の購入時などに、各文字群の位置を示すデータを予め記憶部１１に記憶させておくような場合に比べて、電子書籍を表示させる場合に動的に文字領域の判定を行う場合には、メモリ容量を有効活用することができる。

　また、文字群２４Ａ，２４Ｂが拡大して、吹き出し線２３Ａ，２３Ｂに結合してしまうと、文字群をかたまりとして認識することができない可能性があるが、電子書籍表示装置１は、吹き出し線２３Ａ，２３Ｂと文字群２４Ａ，２４Ｂとが結合しないように制限するので、文字群をかたまりとして認識することができ、文字領域の判定の精度も向上させることができる。更に、吹き出し線２３Ａ，２３Ｂをノイズとして除去することで、拡大表示した際に吹き出し線２３Ａ，２３Ｂも拡大されてしまうようなことを防止することができる。

　更に、吹き出し線２３Ａ，２３Ｂの領域を背景色で塗りつぶすことによって、比較的簡易な処理で、文字群２４Ａ，２４Ｂと結合しないようにすることができるので、電子書籍表示装置１の処理負荷を軽減することができる。

　また、小さな領域を文字領域の判定の対象外とすることで、ノイズを確実に除去することができ、明らかに文字が含まれていない領域に対しても文字領域であるかの判定をすることがなくなり、無駄な処理を実行することがなくなる。更に、小さな領域を記憶部１１に記憶させず破棄する場合には、メモリ領域の有効活用をすることができる。

　また、小さな領域を背景色で塗りつぶすことによって、比較的簡易な処理で、文字領域の判定の対象外とすることができるので、電子書籍表示装置１の処理負荷を軽減することができる。

　また、指定操作により指定された文字領域候補に対して文字領域の判定を行うことによって、ユーザが指定していない文字領域候補以外に対しては文字領域であるかの判定をしないので、無駄な文字領域の判定をする必要がなくなり（例えば、ユーザが特に拡大する必要のないと思う領域については文字領域の判定を行わない）、電子書籍表示装置１の処理負荷を軽減することができる。

　また、文字領域であると判定された文字領域候補を拡大表示することによって、ＯＣＲのように文字を１つずつ認識してからこれらをかたまりにするような場合に比べて、迅速に文字群の拡大表示をすることができる。更に、文字をひとかたまりにしたうえでその領域の全体に対して文字領域の判定を行うので、ＯＣＲのように１文字ずつ認識してからこれらをかたまりにして拡大するのではなく、比較的簡易な処理によって文字のかたまりを拡大表示させることができる。

［４．変形例］
　なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

　例えば、各コマ２１に描かれる文字は、キャラクタが発する言葉だけでなく、キャラクタの心情や漫画の効果音を表すものであってもよい。このような文字であっても、拡張部１０４が領域を拡張することで、文字をかたまりとして認識可能である。また、実施形態では、漫画の台詞が英語で記述されている場合を例に挙げたが、電子書籍表示装置１で文字領域の判定が可能な言語であればよく、他の言語であってよい。更に、キャラクタの台詞が横書きで記述される場合を説明するが、縦書きであってもよい。この場合、横書き用の学習パターンと、縦書き用の学習パターンと、の２つをデータ記憶部１００に用意しておき、文字領域判定部１０８は、横書き用と縦書き用の学習パターンの何れかで文字領域と判定されれば、文字領域候補を文字領域と判定すればよい。

　また例えば、結合制限部１０３が行う２値化反転処理は省略してもよい。また、実施形態では、文字が吹き出し線に囲われている場合を説明したが、文字は、吹き出し線に囲われていなくてもよい。この場合、結合制限部１０３の処理は省略してよい。また、文字は、所定のフォントであってもよいし、手書きであってもよい。手書きの文字であっても、拡張部１０４の処理により文字をかたまりとして判定可能である。更に、吹き出し・コマ・ページによって、文字のフォントや大きさ・色彩・輝度が異なってもよい。フォントや大きさ・色彩・輝度が異なっていたとしても、拡張部１０４が画像内の領域を拡張させることで、文字をかたまりとして判定可能である。

　また例えば、処理実行部１０９が実行する所定の処理の一例として、文字領域判定部１０８により文字領域であると判定された文字領域候補を拡大表示する場合を説明したが、文字領域であると判定された文字領域候補に対する処理内容は、拡大表示などの画像処理に限られない。他にも、電子書籍表示装置１は、文字領域であると判定された文字領域候補内の文字を翻訳するようにしてもよいし、機械音声を出力するようにしてもよい。即ち、所定の処理は、翻訳処理であってもよいし、音声出力処理であってもよい。更に、電子書籍表示装置１は、文字を含むと判定された文字領域候補内をＯＣＲにより文字抽出を行い、当該抽出した文字のデータを記憶部１１に記録して、電子書籍における文字検索を可能なようにしてもよい。即ち、所定の処理は、文字抽出処理や検索処理であってもよい。なお、処理実行部１０９は、文字領域と判定された文字領域候補内を切り出して拡大表示するのではなく、ＯＣＲにより検出した文字のデータに基づいて拡大表示してもよい。

　また例えば、実施形態では、文字領域判定部１０８は、ユーザが文字領域候補を指定する指定操作をすることを条件として、当該文字領域候補が文字領域であるかを判定する場合を説明した。即ち、文字領域判定部１０８は、ユーザが指定操作をするまでは、文字領域であるかの判定処理を待機する場合を説明したが、当該判定処理は、任意のタイミングで実行されるようにすればよく、判定処理を実行するための条件は、指定操作に限られない。例えば、ユーザが特に操作をしなくても、文字領域判定部１０８は、全ての文字候補領域に対して自動的に文字領域であるかの判定処理を実行するようにしてもよい。

　例えば、文字領域判定部１０８は、電子書籍画像２０が表示された場合に、文字領域候補に対して自動的に文字領域であるか否かを判定するようにしてもよい。また例えば、文字領域判定部１０８は、電子書籍画像２０が表示される前に、文字領域候補に対して自動的に文字領域であるか否かを判定するようにしてもよい。別の言い方をすれば、電子書籍のプログラムが起動してから、電子書籍画像２０が表示されるまでの間に、文字領域判定部１０８は、文字領域の判定をするようにしてもよい。また例えば、文字領域判定部１０８は、電子書籍のプログラムが起動する前であっても、文字領域の判定をするようにしてもよい。例えば、電子書籍表示装置１０がサーバなどから電子書籍の画像データをダウンロードしてから、電子書籍のプログラムを起動するまでの間に、文字領域判定部１０８は、文字領域候補に対して文字領域の判定をしてもよい。なお、この場合、結合制限部１０３、拡張部１０４、判定制限部１０５、及び文字領域候補記録部１０６の各々の処理を事前に実行しておき、予め文字領域候補を抽出しておけばよい。

　更に、本発明に係る画像処理装置は、電子書籍表示装置１０以外にも適用可能であり、画像処理装置は、特に画像を表示しない装置であってもよく、表示制御部１０２は省略してもよい。例えば、画像処理装置は、電子書籍の販売前において、電子書籍画像２０に対して予め文字領域を判定し、電子書籍の画像データとともに、当該判定した文字領域を示すデータをユーザに提供するようにしてもよい。他にも例えば、画像処理装置は、サーバコンピュータで実現されてもよく、例えば、電子書籍の画像データが画像処理装置にアップロードされた場合に、文字領域判定部１０８は、文字領域を判定するようにしてもよい。この場合も、結合制限部１０３、拡張部１０４、判定制限部１０５、及び文字領域候補記録部１０６の各々の処理を事前に実行しておき、予め文字領域候補を抽出しておけばよい。

　また例えば、実施形態では、電子書籍の一例として漫画を説明したが、文字を含む電子書籍であればよく、漫画以外にも本発明は適用可能である。例えば、文字の周りに一定のスペースが存在する絵本や雑誌等に対しても、実施形態と同様の文字領域の抽出が可能なため、絵本や雑誌等に適用してもよい。更に、本発明は、電子書籍以外の画像に対しても適用可能である。例えば、文字が描かれた紙などをスキャンした画像データに対して、文字領域判定部１０８が文字領域の判定を行い、処理実行部１０９が所定の処理を実行するようにしてもよい。また例えば、文字と絵などが混在する資料、論文、チラシなどの画像データに対して、文字領域判定部１０９は文字領域の判定をするようにしてもよい。本発明に係る処理は、文字を含む種々の画像に対して適用可能である。

Claims

　画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段と、
　前記画像取得手段により取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段と、
　前記拡張手段により拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する文字領域判定手段と、
　前記文字領域判定手段により文字領域であると判定された領域に基づいて、所定の処理を実行する処理実行手段と、
　を含むことを特徴とする画像処理装置。
　前記画像処理装置は、前記画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、前記拡張手段により拡張した領域と、が結合することを制限する結合制限手段を更に含む、
　ことを特徴とする請求項１に記載の画像処理装置。
　前記結合制限手段は、前記画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域を背景色で塗りつぶすことによって、前記拡張手段により拡張した領域と結合することを制限する、
　ことを特徴とする請求項２に記載の画像処理装置。
　前記画像処理装置は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が前記文字領域判定手段の判定対象となることを制限する判定制限手段を更に含む、
　ことを特徴とする請求項１～３の何れかに記載の画像処理装置。
　前記判定制限手段は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域を背景色で塗りつぶすことによって、前記文字領域判定手段の判定対象となることを制限する、
　ことを特徴とする請求項４に記載の画像処理装置。
　前記画像処理装置は、前記拡張手段により拡張して結合した一部の領域の指定操作を受け付ける指定操作受付手段を更に含み、
　前記文字領域判定手段は、前記指定操作受付手段により受け付けられた指定操作により指定された一部の領域が文字領域であるか否かを判定する、
　ことを特徴とする請求項１～５の何れかに記載の画像処理装置。
　前記処理実行手段は、前記画像が表示された表示手段において、前記文字領域判定手段により文字領域であると判定された領域内を拡大して表示させる、
　ことを特徴とする請求項１～６の何れかに記載の画像処理装置。
　画像データを記憶する手段に記憶された前記画像データを取得する画像取得ステップと、
　前記画像取得ステップにより取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張ステップと、
　前記拡張ステップにより拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する文字領域判定ステップと、
　前記文字領域判定ステップにより文字領域であると判定された領域に基づいて、所定の処理を実行する処理実行ステップと、
　を含むことを特徴とする画像処理方法。
　画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段、
　前記画像取得手段により取得された画像データが示す画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段、
　前記拡張手段により拡張して結合した全部又は一部の領域が文字領域であるか否かを判定する文字領域判定手段、
　前記文字領域判定手段により文字領域であると判定された領域に基づいて、所定の処理を実行する処理実行手段、
　としてコンピュータを機能させるためのプログラム。