JPWO2017009910A1 - 電子書籍表示装置、電子書籍表示方法、及びプログラム - Google Patents
電子書籍表示装置、電子書籍表示方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2017009910A1 JPWO2017009910A1 JP2016509172A JP2016509172A JPWO2017009910A1 JP WO2017009910 A1 JPWO2017009910 A1 JP WO2017009910A1 JP 2016509172 A JP2016509172 A JP 2016509172A JP 2016509172 A JP2016509172 A JP 2016509172A JP WO2017009910 A1 JPWO2017009910 A1 JP WO2017009910A1
- Authority
- JP
- Japan
- Prior art keywords
- electronic book
- character
- image
- unit
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1456—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/01—Solutions for problems related to non-uniform document background
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
画像に含まれる文字群の領域を迅速に特定する。電子書籍表示装置(1)の画像取得手段(101)は、電子書籍の画像データを記憶する手段(100)に記憶された画像データを取得する。表示制御手段(102)は、画像取得手段(101)により取得された画像データに基づいて、電子書籍画像を表示手段(14)に表示させる。拡張手段(104)は、電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる。文字判定手段(108)は、拡張手段(104)により拡張して結合した領域内に文字が含まれるか否か判定する。
Description
本発明は、電子書籍表示装置、電子書籍表示方法、及びプログラムに関する。
従来、光学文字認識(OCR:Optical Character Recognition)のように、画像内の文字群の各文字に対して個別に文字認識を行う技術が知られている。例えば、特許文献1には、2値化画像内を縦方向及び横方向に繰り返し走査して、黒画素が存在しない白ラインで挟まれた領域を抽出して、各領域に対して文字が含まれるか否かを判定する技術が記載されている。
しかしながら、従来の技術では、例えば、画像内の文字群をひとかたまりとして特定したいような場合であっても、当該文字群に含まれる各文字の領域を抽出して、当該領域に対して個別に文字であるか否かを判定することになるので、画像内の文字群の領域を特定するのに時間がかかっていた。
本発明は上記課題に鑑みてなされたものであって、その目的は、画像に含まれる文字群の領域を迅速に特定することである。
上記課題を解決するために、本発明に係る電子書籍表示装置は、電子書籍の画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段と、前記画像取得手段により取得された画像データに基づいて、電子書籍画像を表示手段に表示させる表示制御手段と、前記電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段と、前記拡張手段により拡張して結合した領域内に文字が含まれるか否か判定する文字判定手段と、を含むことを特徴とする。
本発明に係る電子書籍表示方法は、電子書籍の画像データを記憶する手段に記憶された前記画像データを取得する画像取得ステップと、前記画像取得ステップにより取得された画像データに基づいて、電子書籍画像を表示手段に表示させる表示制御ステップと、前記電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張ステップと、前記拡張ステップにより拡張して結合した領域内に文字が含まれるか否か判定する文字判定ステップと、を含むことを特徴とする。
本発明に係るプログラムは、電子書籍の画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段、前記画像取得手段により取得された画像データに基づいて、電子書籍画像を表示手段に表示させる表示制御手段、前記電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段、前記拡張手段により拡張して結合した領域内に文字が含まれるか否か判定する文字判定手段、としてコンピュータを機能させる。
本発明に係る情報記憶媒体は、上記記載のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。
また、本発明の一態様によれば、前記電子書籍表示装置は、前記電子書籍画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、前記拡張手段により拡張した領域と、が結合することを制限する結合制限手段を更に含む、ことを特徴とする。
また、本発明の一態様によれば、前記結合制限手段は、前記電子書籍画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域を背景色で塗りつぶすことによって、前記拡張手段により拡張した領域と結合することを制限する、ことを特徴とする。
また、本発明の一態様によれば、前記電子書籍表示装置は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が前記文字判定手段の判定対象となることを制限する判定制限手段を更に含む、ことを特徴とする。
また、本発明の一態様によれば、前記判定制限手段は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域を背景色で塗りつぶすことによって、前記文字判定手段の判定対象となることを制限する、ことを特徴とする。
また、本発明の一態様によれば、前記電子書籍表示装置は、前記拡張手段により拡張した領域の指定操作を受け付ける指定操作受付手段を更に含み、前記文字判定手段は、前記指定操作受付手段により受け付けられた指定操作により指定された領域内に文字が含まれるか否かを判定する、ことを特徴とする。
また、本発明の一態様によれば、前記表示制御手段は、前記文字判定手段により文字が含まれると判定された領域内を拡大して表示させる、ことを特徴とする。
本発明によれば、画像に含まれる文字群の領域を迅速に特定することが可能になる。
[1.電子書籍表示装置のハードウェア構成]
以下、本発明に係る実施形態を図面に基づき詳細に説明する。図1は、本実施形態における電子書籍表示装置のハードウェア構成を示す図である。電子書籍表示装置1は、ユーザが操作するコンピュータであり、例えば、携帯電話機(スマートフォンを含む)、携帯情報端末(タブレット型コンピュータを含む)、電子書籍リーダー端末、又はパーソナルコンピュータ等である。図1に示すように、電子書籍表示装置1は、制御部10、記憶部11、通信部12、操作部13、表示部14、及び入出力部15を含む。
以下、本発明に係る実施形態を図面に基づき詳細に説明する。図1は、本実施形態における電子書籍表示装置のハードウェア構成を示す図である。電子書籍表示装置1は、ユーザが操作するコンピュータであり、例えば、携帯電話機(スマートフォンを含む)、携帯情報端末(タブレット型コンピュータを含む)、電子書籍リーダー端末、又はパーソナルコンピュータ等である。図1に示すように、電子書籍表示装置1は、制御部10、記憶部11、通信部12、操作部13、表示部14、及び入出力部15を含む。
制御部10は、例えば、一又は複数のマイクロプロセッサを含む。制御部10は、記憶部11に記憶されたプログラムやデータに従って処理を実行する。記憶部11は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMであり、補助記憶部は、ハードディスク又はソリッドステートドライブ等である。通信部12は、ネットワークカード等の通信インタフェースである。
操作部13は、一般的な入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスである。操作部13は、ユーザの操作内容を制御部10に伝達する。表示部14は、例えば、液晶表示部又は有機EL表示部等である。表示部14は、制御部10の指示に従って画面を表示する。入出力部15は、外部機器とのデータの入出力を行う入出力インタフェースである。例えば、入出力部15は、コンピュータ読み取り可能な情報記憶媒体(例えば、光ディスクやメモリカード等)からデータやプログラムを読み取る。
なお、記憶部11に記憶されるものとして説明するプログラム及びデータは、ネットワークに接続されたサーバコンピュータから、通信部12を介して記憶部11に供給されるようにしてもよいし、情報記憶媒体から、入出力部15を介して記憶部11に供給されるようにしてもよい。また、電子書籍表示装置1のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。
[2.電子書籍表示装置において実現される機能]
図2は、電子書籍表示装置1で実現される機能の一例を示す機能ブロック図である。図2に示すように、電子書籍表示装置1では、データ記憶部100、画像取得部101、表示制御部102、結合制限部103、拡張部104、判定制限部105、文字領域候補記録部106、指定操作受付部107、及び文字判定部108が実現される。データ記憶部100は、記憶部11を主として実現され、他の各機能は、制御部10を主として実現される。
図2は、電子書籍表示装置1で実現される機能の一例を示す機能ブロック図である。図2に示すように、電子書籍表示装置1では、データ記憶部100、画像取得部101、表示制御部102、結合制限部103、拡張部104、判定制限部105、文字領域候補記録部106、指定操作受付部107、及び文字判定部108が実現される。データ記憶部100は、記憶部11を主として実現され、他の各機能は、制御部10を主として実現される。
[2−1.データ記憶部]
データ記憶部100は、電子書籍に関する各種データを記憶する。例えば、データ記憶部100は、電子書籍の画像データを記憶する。電子書籍は、表示部14に電子的に表示される書籍であればよく、例えば、漫画、絵本、又は雑誌である。電子書籍は、少なくとも文字を含む。電子書籍は、文字以外に、絵・写真・図形等を含むようにしてよい。なお、ここでの絵とは、人が手で描画した絵をスキャナで読み込んで電子化したものに限らず、人がコンピュータを使って描画したCGを含む意味である。画像データのデータ形式は、一般的に電子書籍で用いられているデータ形式を用いればよい。
データ記憶部100は、電子書籍に関する各種データを記憶する。例えば、データ記憶部100は、電子書籍の画像データを記憶する。電子書籍は、表示部14に電子的に表示される書籍であればよく、例えば、漫画、絵本、又は雑誌である。電子書籍は、少なくとも文字を含む。電子書籍は、文字以外に、絵・写真・図形等を含むようにしてよい。なお、ここでの絵とは、人が手で描画した絵をスキャナで読み込んで電子化したものに限らず、人がコンピュータを使って描画したCGを含む意味である。画像データのデータ形式は、一般的に電子書籍で用いられているデータ形式を用いればよい。
電子書籍は、複数のページにより構成されてもよいし、1ページのみから構成されてもよい。電子書籍が複数のページから構成される場合には、ページごとに画像データが存在してもよいし、これら複数ページをひとまとめにした1つの画像データのみが存在してもよい。また、電子書籍は、カラーであってもよいし、モノクロ又はグレースケールであってもよい。本実施形態では、複数ページから構成されるグレースケールの漫画を、電子書籍の一例として説明する。
なお、データ記憶部100は、画像データ以外のデータを記憶していてもよい。例えば、データ記憶部100は、画像データに付帯する付帯データを記憶してもよい。付帯データは、各ページのページ数等である。他にも例えば、データ記憶部100は、電子書籍リーダーのアプリケーション(ビューワアプリケーション)を記憶してもよい。また例えば、データ記憶部100は、後述する文字判定のための学習データを記憶してもよい。
[2−2.画像取得部]
画像取得部101は、電子書籍の画像データを記憶するデータ記憶部100に記憶された画像データを取得する。本実施形態のように、電子書籍が複数のページから構成される場合、画像取得部101は、これら全てのページの画像データを一度に取得してもよいし、一部のページの画像データのみを取得してもよい。画像取得部101が一部のページの画像データのみを取得する場合、画像取得部101は、表示対象のページの画像データのみを取得してもよいし、表示対象のページとその前後のページの画像データを取得してもよい。なお、表示対象となるのは、1ページだけであってもよいし、見開き等のように複数ページであってもよい。更に、本実施形態のように電子書籍が漫画の場合、1ページの中の1コマのみが表示対象となってもよい。本実施形態では、複数ページのうちの何れか1ページが表示対象になる場合を例に挙げて説明する。
画像取得部101は、電子書籍の画像データを記憶するデータ記憶部100に記憶された画像データを取得する。本実施形態のように、電子書籍が複数のページから構成される場合、画像取得部101は、これら全てのページの画像データを一度に取得してもよいし、一部のページの画像データのみを取得してもよい。画像取得部101が一部のページの画像データのみを取得する場合、画像取得部101は、表示対象のページの画像データのみを取得してもよいし、表示対象のページとその前後のページの画像データを取得してもよい。なお、表示対象となるのは、1ページだけであってもよいし、見開き等のように複数ページであってもよい。更に、本実施形態のように電子書籍が漫画の場合、1ページの中の1コマのみが表示対象となってもよい。本実施形態では、複数ページのうちの何れか1ページが表示対象になる場合を例に挙げて説明する。
[2−3.表示制御部]
表示制御部102は、画像取得部101により取得された画像データに基づいて、電子書籍画像を表示部14に表示させる。図3は、電子書籍画像の一例を示す図である。本実施形態では、複数ページからなる漫画を電子書籍の一例として説明するので、図3に示すように、電子書籍画像20は、漫画の各ページである。電子書籍画像20は、1又は複数のコマ21を含む。コマ21は、ページ内で絵や文字が描画される区画である。図3の例では、電子書籍画像20は、2つのコマ21(これらをコマ21A,21Bとも記載する)を含む。図3の例では、各コマ21は、枠で囲われているが、枠で囲われていなくてもよい。
表示制御部102は、画像取得部101により取得された画像データに基づいて、電子書籍画像を表示部14に表示させる。図3は、電子書籍画像の一例を示す図である。本実施形態では、複数ページからなる漫画を電子書籍の一例として説明するので、図3に示すように、電子書籍画像20は、漫画の各ページである。電子書籍画像20は、1又は複数のコマ21を含む。コマ21は、ページ内で絵や文字が描画される区画である。図3の例では、電子書籍画像20は、2つのコマ21(これらをコマ21A,21Bとも記載する)を含む。図3の例では、各コマ21は、枠で囲われているが、枠で囲われていなくてもよい。
各コマ21は、絵、吹き出し線、文字等の物体を含む。吹き出し線は、漫画のキャラクタの台詞を表す。キャラクタは、漫画の登場人物であり、人間以外にも動物・ロボット・架空の生物であってもよい。吹き出し線の内側には、キャラクタの台詞を表す1又は複数の文字が含まれている。以降、複数の文字のまとまりのことを文字群という。図3の例では、コマ21Aには、キャラクタ22A、吹き出し線23A、文字群24A、及び太陽25Aが描かれており、コマ21Bには、キャラクタ22B,22C、吹き出し線23B、文字群24B、及び食器25Bが描かれている。なお、キャラクタ22A〜22C、太陽25A、及び食器25Bは、上記説明した絵の一例である。吹き出し線23Aは、キャラクタ22Aの台詞を示し、吹き出し線23Bは、キャラクタ22Cの台詞を示す。
なお、本実施形態のように表示対象が1ページの場合、表示制御部102は、図3のようにページの全体を表示させてもよいし、ページ内の一部のみを表示させてもよい。ページ内の一部のみを表示させる場合、表示制御部102は、ユーザが操作部13を用いて指示した部分を表示させることになる。
[2−4.結合制限部]
結合制限部103は、電子書籍画像20に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、後述する拡張部104により拡張した領域と、が結合することを制限する。例えば、文字群24Aが拡張して吹き出し線23Aに結合すると、文字群24Aを文字のかたまりとして検出できなくなってしまう。このため、結合制限部103は、下記に説明するようにして、これらの結合を制限することで、文字群24Aの検出の精度を高めるようにしている。
結合制限部103は、電子書籍画像20に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、後述する拡張部104により拡張した領域と、が結合することを制限する。例えば、文字群24Aが拡張して吹き出し線23Aに結合すると、文字群24Aを文字のかたまりとして検出できなくなってしまう。このため、結合制限部103は、下記に説明するようにして、これらの結合を制限することで、文字群24Aの検出の精度を高めるようにしている。
なお、本実施形態では、説明の簡略化のため、結合制限部103、拡張部104、判定制限部105、及び文字領域候補記録部106による画像処理の対象となるのは、表示部14に表示された電子書籍画像20である場合を説明するが、表示部14に表示される前の電子書籍画像20が画像処理の対象となってもよい。この場合、表示部14に表示されたページの前後のページの電子書籍画像20が画像処理の対象となるようにしてよい。
領域とは、電子書籍画像20のうち物体が描かれている部分(画素)であり、背景色(例えば、白)以外の色(例えば、黒又はグレー)の部分である。例えば、キャラクタ22A〜22C、吹き出し線23A,23B、文字群24A,24B、太陽25A、及び食器25B等の物体が描かれている部分が、本実施形態でいう領域に相当する。なお、物体は、電子書籍画像20の背景以外の部分に表れている描画物といえる。
輪郭は、領域を縁取ったものであり、本実施形態では、電子書籍表示装置1が線として表現したものを輪郭線と記載する。領域は、輪郭の内部、又は、輪郭と輪郭で挟まれた部分ということもできる。例えば、文字群24Aであれば、「L」の文字は、輪郭の内部が領域であり、「O」の文字は、外周の輪郭と内周の輪郭とに挟まれた部分が領域である。
輪郭の大きさは、例えば、輪郭の幅、輪郭線の長さ、輪郭の内側の面積等であってよいが、本実施形態では、輪郭の外接矩形の大きさを、輪郭の大きさとして用いる。領域の大きさは、例えば、領域の幅であってよいが、本実施形態では、領域の外接矩形の大きさを、領域の大きさとして用いる。
図4は、輪郭と領域の大きさの説明図である。図4のXs軸及びYs軸は、スクリーン座標系の座標軸である。ここでは、領域の一例として吹き出し線23Aを挙げて、吹き出し線23Aの輪郭の大きさと、吹き出し線23A自身の大きさと、について説明する。図4では、吹き出し線23Aの外周輪郭線と内周輪郭線を破線で描き、吹き出し線23A自身を実線で描いている。なお、図4では、説明の都合上、実線と破線の間に間隔を設けているが、実際には、これらに間隔はない。
例えば、輪郭線の外接矩形は、輪郭線のうち、Xs座標の最小値と及び最大値の間であり、かつ、Ys座標の最小値と最大値の間の領域である。図4に示す例では、外周輪郭線の外接矩形は、点P1A〜P4Aを頂点とする長方形なので、この長方形の大きさが外周輪郭線の大きさに相当する。一方、内周輪郭線の外接矩形は、点P1B〜P4Bを頂点とする長方形なので、この長方形の大きさが内周輪郭線の大きさに相当する。
また例えば、吹き出し線23Aの外接矩形は、吹き出し線23Aが占める画素のうち、Xs座標の最小値と最大値の間であり、かつ、Ys座標の最小値と最大値の間の領域である。吹き出し線23Aの外接矩形は、点P1C〜P4Cを頂点とする長方形なので、この長方形の大きさが吹き出し線23A自身の大きさに相当する。
結合制限部103は、輪郭の大きさと領域自身の大きさの何れを用いてもよいが、本実施形態では、輪郭の大きさを用いる場合を説明する。結合制限部103は、電子書籍画像20内の各領域の輪郭の外接矩形を抽出し、外接矩形の大きさが基準以上であるか否かを判定する。なお、大きさを示す数値としては、外接矩形の縦幅及び横幅の少なくとも一方が用いられてもよいし、外接矩形の面積が用いられてもよい。他にも例えば、外接矩形の対角線の長さが、大きさを示す数値として用いられてもよい。本実施形態では、大きさを示す数値として、外接矩形の縦幅と横幅の両方が用いられる場合を例に挙げて説明する。
大きさの基準を示す閾値T1は、固定値であってもよいし、可変値であってもよい。閾値T1が固定値である場合には、データ記憶部100にその値が記憶されており、閾値T1が可変値である場合には、データ記憶部100に記憶された数値をもとに計算されることになる。本実施形態では、閾値T1が固定値である場合を説明する。例えば、結合制限部103は、外接矩形の縦幅と横幅がそれぞれ閾値T1以上であるか否かを判定することによって、各輪郭の大きさが基準以上であるか否かを判定する。
本実施形態では、結合制限部103は、領域の輪郭の大きさが基準以上である場合、当該領域を背景色で塗りつぶすことによって、後述する拡張部104により拡張した領域と結合することを制限する場合を説明する。背景色は、画像に対して指定された所定の色であり、例えば、画像内で占める割合が最も多い色である。例えば、背景色は、白又は黒である。なお、本実施形態における結合とは、ある領域が他の領域と接触又は重畳して1つの領域となることである。
例えば、吹き出し線23Aの輪郭は比較的大きいので、結合制限部103は、吹き出し線23Aの輪郭を基準以上の大きさであると判定し、吹き出し線23Aを背景色で塗りつぶすことになる。その結果、吹き出し線23Aと、後述する拡張部104により拡張された文字群24Aと、が結合することを防止することができるようになっている。具体的には、本実施形態では、結合制限部103は、下記のように、(1)2値化反転処理、(2)輪郭抽出処理、(3)輪郭線拡大処理、(4)拡大輪郭線重畳処理を実行することによって、吹き出し線23A等を塗りつぶすことになる。
[2値化反転処理]
まず、結合制限部103は、電子書籍画像20に対して2値化処理と反転処理を実行する。図5は、2値化され反転された電子書籍画像20を示す図である。結合制限部103は、図3に示す電子書籍画像20の各画素の画素値と閾値に基づいて2値化処理を実行し、各画素を白又は黒に設定する。2値化処理自体は、公知の種々のアルゴリズムを適用可能であり、例えば、Pタイル法やモード法によって閾値を定めてもよい。結合制限部103は、2値化した各画素の画素値を反転させ、白の画素を黒にして黒の画素を白にすることによって、図4に示す電子書籍画像20を、図5に示す状態にする。反転処理自体も、公知の種々の手法を適用可能であり、例えば、各色の画素値の最大値(8ビットグレースケールなら255)から画素値の現在値を引くことで反転後の画素値を計算してもよい。
まず、結合制限部103は、電子書籍画像20に対して2値化処理と反転処理を実行する。図5は、2値化され反転された電子書籍画像20を示す図である。結合制限部103は、図3に示す電子書籍画像20の各画素の画素値と閾値に基づいて2値化処理を実行し、各画素を白又は黒に設定する。2値化処理自体は、公知の種々のアルゴリズムを適用可能であり、例えば、Pタイル法やモード法によって閾値を定めてもよい。結合制限部103は、2値化した各画素の画素値を反転させ、白の画素を黒にして黒の画素を白にすることによって、図4に示す電子書籍画像20を、図5に示す状態にする。反転処理自体も、公知の種々の手法を適用可能であり、例えば、各色の画素値の最大値(8ビットグレースケールなら255)から画素値の現在値を引くことで反転後の画素値を計算してもよい。
[輪郭抽出処理]
結合制限部103は、2値化して反転させた電子書籍画像20(図5)に対して輪郭抽出処理を実行し、閉領域の輪郭を抽出する。図6は、図5に示す電子書籍画像20から抽出された輪郭線を示す図である。図6では、結合制限部103が抽出した輪郭線を破線で示している。輪郭線は、所定の太さの線(例えば、1ピクセル)であればよい。また、輪郭線の色は、予め定められた色であればよいが、ここでは黒とする。これは、2値化して反転させた電子書籍画像20(図5)内の吹き出し線23A,23Bが白で描かれているため、これを背景色である黒で塗りつぶすためである。
結合制限部103は、2値化して反転させた電子書籍画像20(図5)に対して輪郭抽出処理を実行し、閉領域の輪郭を抽出する。図6は、図5に示す電子書籍画像20から抽出された輪郭線を示す図である。図6では、結合制限部103が抽出した輪郭線を破線で示している。輪郭線は、所定の太さの線(例えば、1ピクセル)であればよい。また、輪郭線の色は、予め定められた色であればよいが、ここでは黒とする。これは、2値化して反転させた電子書籍画像20(図5)内の吹き出し線23A,23Bが白で描かれているため、これを背景色である黒で塗りつぶすためである。
なお、輪郭抽出処理自体は、公知の種々の輪郭抽出アルゴリズムを適用可能であり、例えば、微分フィルタ、Prewittフィルタ、又はSobelフィルタ等を用いて画像内のエッジを検出することによって、各領域の輪郭を抽出するようにしてよい。また、図5に示す電子書籍画像20では、キャラクタ22Aの左側頭部と左肩がコマ21Aの輪郭に触れているので、図6に示すように、キャラクタ22Aとコマ21Aの輪郭線は一連のものになっている。
[輪郭線拡大処理]
結合制限部103は、輪郭抽出処理によって抽出した輪郭線のうち、基準以上の大きさの輪郭線を拡大する。結合制限部103は、各輪郭線の外接矩形を抽出して、その大きさが閾値T1以上であるか否かを判定することになる。先述したように、本実施形態では、外接矩形の縦幅と横幅を大きさとして用いるので、結合制限部103は、外接矩形の縦幅と横幅がそれぞれ閾値T1以上であるか否かを判定することによって、各輪郭線の大きさが基準以上であるか否かを判定する。
結合制限部103は、輪郭抽出処理によって抽出した輪郭線のうち、基準以上の大きさの輪郭線を拡大する。結合制限部103は、各輪郭線の外接矩形を抽出して、その大きさが閾値T1以上であるか否かを判定することになる。先述したように、本実施形態では、外接矩形の縦幅と横幅を大きさとして用いるので、結合制限部103は、外接矩形の縦幅と横幅がそれぞれ閾値T1以上であるか否かを判定することによって、各輪郭線の大きさが基準以上であるか否かを判定する。
結合制限部103は、基準以上の大きさの輪郭線を拡大する。輪郭線を拡大するとは、輪郭線を太くすることである。輪郭線の拡大の程度(線を太らせるピクセル数)は、固定値であってもよいし、可変値であってもよい。固定値である場合には、データ記憶部100にその値が記憶されており、可変値である場合には、データ記憶部100に記憶された数値をもとに計算されることになる。例えば、結合制限部103は、輪郭線の位置や輪郭線の大きさに基づいて、当該輪郭線の拡大の程度を計算してもよい。この場合、輪郭線が画像の中央付近にあるほど、その輪郭線が吹き出し線23A,23Bのものである蓋然性が高いので、輪郭線の拡大の程度を大きくして、より確実に塗りつぶせるようにしてもよい。また例えば、輪郭線が大きいほど、その輪郭線が吹き出し線23A,23Bのものである蓋然性が高いので、輪郭線の拡大の程度を大きくして、より確実に塗りつぶせるようにしてもよい。本実施形態では、拡大の程度が固定値であり、所定ピクセル分だけ線を太らせる場合を説明する。
図7は、基準以上の大きさの輪郭線を拡大した後の各輪郭線の状態を示す図である。図7に示す例では、コマ21A,21Bの輪郭線、キャラクタ22A〜22Cの一部の輪郭線、吹き出し線23A,23Bの輪郭線、及び太陽25Aの一部の輪郭線が所定ピクセル分だけ太くなっている。図7に示すように、結合制限部103が輪郭線を拡大させると、近くにある輪郭線同士が結合して1つの太い輪郭線になることがある。例えば、図7に示す例では、吹き出し線23A,23Bの外周の輪郭線と内周の輪郭線がそれぞれ拡大し、これらが互いに結合して1つの太い輪郭線となっている。
[拡大輪郭線重畳処理]
結合制限部103は、2値化して反転させた電子書籍画像20(図5)に、拡大した輪郭線(図7)を重畳させる。図8は、拡大した輪郭線が重畳された電子書籍画像20を示す図である。図8に示すように、拡大して太い1本になった輪郭線で吹き出し線23A,23Bを重畳したことによって、吹き出し線23A,23Bが黒く塗りつぶされている。このため、後述する処理によって、拡張部104が文字群24A,24Bを拡張したとしても、吹き出し線23A,23Bに結合しないことになる。
結合制限部103は、2値化して反転させた電子書籍画像20(図5)に、拡大した輪郭線(図7)を重畳させる。図8は、拡大した輪郭線が重畳された電子書籍画像20を示す図である。図8に示すように、拡大して太い1本になった輪郭線で吹き出し線23A,23Bを重畳したことによって、吹き出し線23A,23Bが黒く塗りつぶされている。このため、後述する処理によって、拡張部104が文字群24A,24Bを拡張したとしても、吹き出し線23A,23Bに結合しないことになる。
上記のようにして、吹き出し線23A,23Bを背景色で塗りつぶすことができる。なお、吹き出し線23A,23Bを背景色で塗りつぶす方法は、上記説明した方法に限られない。例えば、結合制限部103は、基準以上の大きさの輪郭線で挟まれた領域(例えば、吹き出し線23A,23B)を選択して、その選択範囲についてのみ、もう一度色の反転処理をしてもよい。このようにすれば、例えば、図5に示す吹き出し線23A,23Bの色が白から黒に戻るので、吹き出し線23A,23Bを黒く塗りつぶすことができる。他にも例えば、結合制限部103は、基準以上の大きさの輪郭線で挟まれた領域であり、かつ、当該輪郭線の間隔が一定距離未満である領域を、背景色で塗りつぶすようにしてもよい。更に、例えば、結合制限部103は、輪郭線で挟まれた領域が一定距離以上続いている区間を、背景色で塗りつぶすようにしてもよい。結合制限部103の処理対象となる領域に、このような条件を追加することによって、当該条件によって特定される領域が、吹き出し線23A,23Bのような線が描かれた部分である蓋然性が高まる。このため、より確実に、吹き出し線23A,23Bのような線の部分を塗りつぶし、文字群24A,24Bと結合することを防止することができる。
また例えば、吹き出し線23A,23Bと、文字群24A,24Bと、を結合させないようにする方法は、吹き出し線23A,23Bを背景色で塗りつぶす方法に限られない。例えば、結合制限部103は、基準以上の大きさの領域の位置(領域を構成する画素の位置)をデータ記憶部100に記録しておき、後述する拡張部104により拡張された領域が当該画素に含まれても、その画素は同じ領域とみなさないようにしてもよい。同じ領域とみなさないためには、例えば、同一領域を抽出するラベリング処理において、同じ番号を振らないようにすればよい。他にも例えば、結合制限部103は、基準以上の大きさの輪郭線の方向には、拡張部104が領域を拡張しないように制限をするようにしてもよい。このようにすることでも、例えば、文字群24A,24Bが吹き出し線23A,23Bの方向には拡張しないので、吹き出し線23A,23Bと、文字群24A,24Bと、が結合することを防止することができる。
[2−5.拡張部]
拡張部104は、電子書籍画像20に含まれる物体を示す複数の領域の各々を拡張して結合させる。なお、拡張部104は、図8に示す電子書籍画像20内の全ての領域を拡張してもよいし、結合制限部103が抽出した輪郭の大きさが基準以上の領域は拡張せず、輪郭の大きさが基準未満の領域を拡張するようにしてもよい。即ち、例えば、拡張部104は、キャラクタ22A,22B,22Cの目・鼻・口等、文字群24A,24Bの各文字、太陽25Aの一部、食器25Bのように、輪郭の大きさが基準未満のもののみを拡張してもよい。
拡張部104は、電子書籍画像20に含まれる物体を示す複数の領域の各々を拡張して結合させる。なお、拡張部104は、図8に示す電子書籍画像20内の全ての領域を拡張してもよいし、結合制限部103が抽出した輪郭の大きさが基準以上の領域は拡張せず、輪郭の大きさが基準未満の領域を拡張するようにしてもよい。即ち、例えば、拡張部104は、キャラクタ22A,22B,22Cの目・鼻・口等、文字群24A,24Bの各文字、太陽25Aの一部、食器25Bのように、輪郭の大きさが基準未満のもののみを拡張してもよい。
なお、領域を拡張するとは、領域を太らせることであり、領域が占める面積を大きくすることである。領域の拡張の程度は、固定値であってもよいし、可変値であってもよい。固定値である場合には、データ記憶部100にその値が記憶されており、可変値である場合には、データ記憶部100に記憶された数値をもとに計算されることになる。例えば、拡張部104は、画像における領域の位置や大きさに基づいて、当該領域の拡張の程度を計算してもよい。この場合、領域が画像の中央付近にあるほど、その領域が文字である蓋然性が高いので、領域の拡張の程度を大きくして、より確実に他の文字と結合させるようにしてもよい。また、他の領域との距離が近いほど、その領域が文字群の1文字である蓋然性が高いので、領域の拡張の程度を大きくして、より確実に他の文字と結合させるようにしてもよい。また例えば、領域の大きさが一定範囲(文字と推測される程度の広さ)におさまっていれば、その領域が文字である蓋然性が高いので、領域の拡張の程度を大きくして、より確実に他の文字と結合させるようにしてもよい。本実施形態では、拡張の程度が固定値であり、所定ピクセル分だけ領域を太らせる場合を説明する。
図9及び図10は、拡張部104の処理内容の説明図である。ここでは、拡張部104が、文字群24Aの各文字を拡張する場合を例に挙げて説明する。例えば、図9に示すように、拡張部104は、「H」を所定ピクセル分だけ拡張する。別の言い方をすれば、拡張部104は、「H」から所定距離以内にある画素(即ち、「H」の周囲の画素)を白で塗りつぶす。拡張部104は、文字群24Aの「HELLO! HOW ARE YOU?」の「H」以外の文字も、「H」と同様に所定ピクセル分だけ拡張する。拡張部104が文字群24Aの各文字を拡張させると、図10に示すように、文字群24Aの各文字が結合して、文字群24Aを1つの領域とすることができる。
図11は、拡張部104により領域が拡張された後の状態を示す図である。図11に示すように、ここでは、文字群24A,24Bに含まれる各文字の領域が拡張して互いに結合し、1つの領域になっている。他にも例えば、食器25Bの各領域も拡張して互いに結合している。他の領域については、拡張はされたものの、付近に別の領域が無かったため結合していない。
[2−6.判定制限部]
判定制限部105は、拡張部104により拡張した領域(図12)の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が文字判定部108の判定対象となることを制限する。なお、判定制限部105の説明でも、結合制限部103と同様、輪郭の大きさが用いられる場合を説明する。
判定制限部105は、拡張部104により拡張した領域(図12)の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が文字判定部108の判定対象となることを制限する。なお、判定制限部105の説明でも、結合制限部103と同様、輪郭の大きさが用いられる場合を説明する。
上記の基準を示す閾値T2は、閾値T1よりも小さくてよい。なお、閾値T2が固定値であってもよいし、可変値であってもよい点については、閾値T1と同様である。本実施形態では、外接矩形の縦幅と横幅を大きさとして用いるので、判定制限部105は、外接矩形の縦幅と横幅がそれぞれ閾値T2以上であるか否かを判定することによって、拡張部104により拡張した領域の輪郭が基準未満であるか否かを判定する。
本実施形態では、判定制限部105は、拡張部104により拡張した領域の輪郭の大きさが基準未満である場合、当該領域を背景色で塗りつぶすことによって、文字判定部108の判定対象となることを制限する場合を説明する。図12は、輪郭の大きさが基準未満である領域が背景色で塗りつぶされた後の状態を示す図である。例えば、キャラクタ22A,22Cの目・鼻・口等、太陽25Aの一部の輪郭が基準未満の大きさであるため、図12に示すように、判定制限部105は、これらを黒で塗りつぶしている。
なお、基準未満の大きさの領域を背景色で塗りつぶす以外の方法で、文字判定部108の文字判定の対象外とするようにしてもよい。例えば、判定制限部105は、基準未満の大きさの領域の位置をデータ記憶部100に記録しておき、ユーザがその領域を指定しても文字判定部108による判定処理を実行しないようにしてもよい。
[2−7.文字領域候補記録部]
文字領域候補記録部106は、電子書籍画像20内の文字領域候補を示すデータをデータ記憶部100に記録する。文字領域候補は、文字判定部108による文字判定の対象となる領域である。別の言い方をすれば、文字領域候補は、文字が含まれている可能性のある領域である。本実施形態では、判定制限部105による処理が実行された後の電子書籍画像20(図12)内の白画素の領域が、文字領域候補となる。
文字領域候補記録部106は、電子書籍画像20内の文字領域候補を示すデータをデータ記憶部100に記録する。文字領域候補は、文字判定部108による文字判定の対象となる領域である。別の言い方をすれば、文字領域候補は、文字が含まれている可能性のある領域である。本実施形態では、判定制限部105による処理が実行された後の電子書籍画像20(図12)内の白画素の領域が、文字領域候補となる。
図13は、文字領域候補の一例を示す図である。文字領域候補記録部106は、図12に示す電子書籍画像20に対して輪郭抽出処理を実行して、白画素の領域の輪郭(図13に破線で示す)を抽出する。輪郭抽出処理自体は、結合制限部103による処理と同様であってよい。ここでは、文字領域候補記録部106は、閉領域の輪郭を抽出するので、図12に示すキャラクタ22Aについては輪郭を抽出しないことになる。文字領域候補記録部106は、抽出した輪郭線の位置を示すデータをデータ記憶部100に記録する。
なお、ここでは文字領域候補を識別するデータとして、輪郭線の位置を示すデータを例に挙げるが、文字領域候補を識別可能なデータであればよい。例えば、文字領域候補記録部106は、図12に示す電子書籍画像20に対してラベリング処理を実行し、白画素が連続する画素に同じ番号を付与することによって、文字領域候補を識別するデータを記録するようにしてもよい。
[2−8.指定操作受付部]
指定操作受付部107は、拡張部104により拡張した領域の指定操作を受け付ける。指定操作は、電子書籍画像20内の領域を指定するための操作であればよく、例えば、電子書籍画像20内の位置を指定する操作である。本実施形態では、操作部13により表示部14の表示画面内の位置を指定する操作が指定操作に相当する。操作部13により指定された位置を含む領域が、指定操作により指定されたことになる。本実施形態では、指定操作は、文字領域候補のうちの何れかを指定する操作といえる。
指定操作受付部107は、拡張部104により拡張した領域の指定操作を受け付ける。指定操作は、電子書籍画像20内の領域を指定するための操作であればよく、例えば、電子書籍画像20内の位置を指定する操作である。本実施形態では、操作部13により表示部14の表示画面内の位置を指定する操作が指定操作に相当する。操作部13により指定された位置を含む領域が、指定操作により指定されたことになる。本実施形態では、指定操作は、文字領域候補のうちの何れかを指定する操作といえる。
[2−9.文字判定部]
文字判定部108は、拡張部104により拡張して結合した領域内に文字が含まれるか否か判定する。例えば、文字判定部108は、指定操作受付部107により受け付けられた指定操作により指定された領域内に文字が含まれるか否かを判定する。本実施形態では、指定操作受付部107は、文字領域候補の指定を受け付けるので、文字判定部108は、文字領域候補内に文字が含まれるか否かを判定することになる。なお、本実施形態では、文字判定部108は、図3に示す状態の電子書籍画像20を用いて判定処理を実行する場合を説明するが、使用する画像の状態に応じて文字判定の方法を変えるようにすれば、図5や図8に示す状態の電子書籍画像20を用いてもよい。
文字判定部108は、拡張部104により拡張して結合した領域内に文字が含まれるか否か判定する。例えば、文字判定部108は、指定操作受付部107により受け付けられた指定操作により指定された領域内に文字が含まれるか否かを判定する。本実施形態では、指定操作受付部107は、文字領域候補の指定を受け付けるので、文字判定部108は、文字領域候補内に文字が含まれるか否かを判定することになる。なお、本実施形態では、文字判定部108は、図3に示す状態の電子書籍画像20を用いて判定処理を実行する場合を説明するが、使用する画像の状態に応じて文字判定の方法を変えるようにすれば、図5や図8に示す状態の電子書籍画像20を用いてもよい。
例えば、文字パターンの学習データをデータ記憶部100に記憶させておき、文字判定部108は、文字領域候補と、学習データが示す文字パターンと、を比較することによって、文字領域候補内に文字が含まれるか否かを判定する。学習データには、複数の判定項目が定義されており、例えば、下記のような判定項目によって文字判定が行われる。
図14は、学習データを用いた文字判定処理の説明図である。まず、第1の判定項目として、文字判定部108は、文字領域候補の全体の大きさが基準以上であるか否かを判定する。文字領域候補の大きさは、外接矩形の大きさを用いてもよいし、文字領域候補のピクセル数をカウントしてもよい。ここでは、外接矩形を用いる場合を説明する。この基準を示す閾値T3は、閾値T1,T2と同じであってもよいし、異なっていてもよい。また、閾値T3は、閾値T1,T2と同様、固定値であってもよいし、可変値であってもよい。文字判定部108は、外接矩形の大きさが基準以上である場合、文字領域と判定する。
図14に示すように、文字判定部108は、外接矩形をnマス×mマス(n,mは、ともに2以上の整数。ここでは、n=m=10とする。)の矩形領域に区切る。そして、矩形領域の垂直ライン(図14では1列目〜10列目の各ライン)及び水平ライン(図14では1行目〜10行目の各ライン)のそれぞれについて、第2の判定項目〜第5の判定項目について判定する。なお、全てのマスについて判定処理を行ってもよいし、一部のマス(例えば、外周の一部のマスを除いたマス)についてのみ判定処理を行ってもよい。
第2の判定項目として、文字判定部108は、各ラインの白ピクセルの数が基準数以上であるか否かを判定する。この基準数は、固定値であってもよいし、可変値であってもよい。文字判定部108は、白ピクセルの数が基準数以上である場合、文字領域と判定する。第3の判定項目として、文字判定部108は、各ラインの画素を端から走査し、白画素と黒画素とが反転した数をカウントし、当該カウント数が基準数以上であるか否かを判定する。この基準数も、固定値であってもよいし、可変値であってもよい。文字判定部108は、カウント数が基準数以上である場合、文字領域と判定する。
第4の判定項目として、文字判定部108は、各ラインの画素を端から走査し、最初に白の画素を発見した位置が所定の位置であるか否かを判定する。例えば、文字判定部108は、最初に白の画素を発見した位置が端から基準距離以内であれば、文字領域と判定する。第5の判定項目として、文字判定部108は、各ラインの画素を端から走査し、最後に白の画素を発見した位置が所定の位置であるか否かを判定する。例えば、文字判定部108は、最後に白の画素を発見した位置が端から基準距離以内であれば、文字領域と判定する。
文字判定部108は、学習パターンに定義された第1の判定項目〜第5の判定項目の全てについて文字領域であると判定された場合に、文字領域候補が文字領域であると判定するようにしてもよいし、所定数以上(例えば、3つ以上)の判定項目について文字領域であると判定された場合に、文字領域候補が文字領域であると判定するようにしてもよい。
なお、文字領域候補に文字が含まれるか否かを判定する方法は、上記説明した方法に限られず、公知の種々の手法を適用可能である。例えば、文字判定部108は、文字の形状のパターンと文字領域候補とを比較して、互いの類似度を計算することによって、文字領域候補に文字が含まれるか否かを判定してもよい。他にも例えば、教師ありの機械学習手法(SVM:Support Vector Machine)を用いて、文字領域候補に文字が含まれるか否かを判定してもよい。この手法では、学習データを用意しておき、複数の項目をパラメータとして判定アルゴリズムに入力すると、判定アルゴリズムは、入力されたパラメータと学習データとを用いて、文字領域候補が文字領域であるか否かの出力を得ることができるようになっている。このような手法を用いることで、例えば、種々の形状の文字や絵が含まれる漫画のような画像であっても、より確実に文字領域を特定することができる。
本実施形態では、表示制御部102は、文字判定部108により文字が含まれると判定された領域内を拡大して表示させる。図15は、文字群24Aが拡大表示される様子を示す図である。図15に示すように、ユーザが文字群24Aに対応する文字領域候補を指定すると、文字判定部108により文字判定処理が行われて文字と判定されるので、表示制御部102は、文字領域候補内を切り出した拡大画像26を表示させる。図15の例では、表示制御部102は、図8に示す電子書籍画像20の文字領域候補内を切り出して拡大させて表示させるので、拡大画像26は、色が反転した状態で文字が表示されている。
なお、表示制御部102は、図3に示す電子書籍画像20の文字領域候補内を切り出して拡大させて表示させてもよい。この場合、拡大画像26における文字の色は反転しないことになる。また、拡大画像26に切り出す範囲は、図15のような長方形に限られず、楕円形等の任意の形状であってよい。また、拡大画像26の表示位置は、ランダムに決定されてもよいし、ユーザが指定した位置に基づいて定まってもよい。また、拡大画像26における文字の拡大率は、文字領域候補の大きさに基づいて決まってもよいし、所定の拡大率であってもよい。
[3.電子書籍表示装置において実行される処理]
図16は、電子書籍表示装置1において実行される処理の一例を示すフロー図である。図16に示す処理は、制御部10が、記憶部11に記憶されたプログラムに従って動作することによって実行される。本実施形態では、下記に説明する処理が実行されることにより、図2に示す機能ブロックが実現される。例えば、ユーザが操作部13を用いて、プログラムの起動を指示した場合に、下記の処理が実行される。
図16は、電子書籍表示装置1において実行される処理の一例を示すフロー図である。図16に示す処理は、制御部10が、記憶部11に記憶されたプログラムに従って動作することによって実行される。本実施形態では、下記に説明する処理が実行されることにより、図2に示す機能ブロックが実現される。例えば、ユーザが操作部13を用いて、プログラムの起動を指示した場合に、下記の処理が実行される。
図16に示すように、制御部10は、記憶部11に記憶されたプログラムを起動し(S1)、操作部13からの入力に基づいて、ユーザが指定した電子書籍を特定する(S2)。例えば、S1において起動するプログラムは、電子書籍リーダーのアプリケーションである。S1においては、制御部10は、記憶部11に画像データが記憶された電子書籍の一覧を表示部14に表示させ、S2において、制御部10は、一覧の中からユーザにより指定された電子書籍を特定することになる。
制御部10は、記憶部11を参照して、ユーザが指定した電子書籍の画像データを取得する(S3)。なお、記憶部11には、ユーザが保有する電子書籍の識別情報と、画像データと、が関連付けられて記憶されているものとする。制御部10は、S3で取得した画像データに基づいて、電子書籍の1ページ目を表示部14に表示させる(S4)。S4においては、制御部10は、画像データが示す電子書籍画像20(図3)を表示部14に表示させることになる。
制御部10は、電子書籍画像20に対して、2値化処理と反転処理を実行する(S5)。なお、先述したように、表示部14に表示される電子書籍画像20に対してS5〜S11の画像処理が実行される場合を説明するが、表示部14に表示される電子書籍画像20の前後のページの電子書籍画像20に対しても、予めS5〜S11の画像処理を実行しておくようにしてもよい。S5においては、制御部10は、2値化して反転した電子書籍画像20(図5)のデータを生成して記憶部11に記録する。
制御部10は、S5で生成した電子書籍画像20内に対して、輪郭抽出処理を実行する(S6)。S6においては、制御部10は、電子書籍画像20内の輪郭線(図6)を示すデータを生成して記憶部11に記録する。
制御部10は、S6で抽出した輪郭線のうち、基準以上の大きさの輪郭線を拡大させる(S7)。S7においては、制御部10は、拡大した輪郭線を示すデータ(図7)を生成して記憶部11に記録する。なお、制御部10は、このデータを新たに生成するのではなく、S6で記憶部11に記録した輪郭線のデータを更新するようにしてもよい。
制御部10は、S5で生成した電子書籍画像20に、S7で拡大した輪郭線を重畳させる(S8)。S8においては、制御部10は、重畳後の電子書籍画像20(図8)を示すデータを生成して記憶部11に記録する。なお、制御部10は、このデータを新たに生成するのではなく、S5で記憶部11に記録した電子書籍画像20のデータを更新するようにしてもよい。
制御部10は、S8で輪郭線を重畳させた電子書籍画像20内の領域を拡張させる(S9)。S9においては、制御部10は、拡張後の電子書籍画像20(図11)を示すデータを生成して記憶部11に記録する。なお、制御部10は、このデータを新たに生成するのではなく、S5又はS8で記憶部11に記録した電子書籍画像20のデータを更新するようにしてもよい。
制御部10は、S9で拡張した電子書籍画像20の領域のうち、基準未満の大きさの領域を除去する(S10)。S10においては、制御部10は、基準未満の大きさの領域を除去した後の電子書籍画像20(図12)を示すデータを記憶部11に記録する。なお、制御部10は、このデータを新たに生成するのではなく、S5、S8、又はS9で記憶部11に記録した電子書籍画像20のデータを更新するようにしてもよい。
制御部10は、S10で領域が除去された電子書籍画像20に対して、輪郭抽出処理を実行する(S11)。S11の処理内容は、S6と同様であり、S11で抽出される輪郭は、文字領域候補の輪郭である。S11においては、制御部10は、S10で領域が除去された電子書籍画像20内の輪郭線(図13)を示すデータを生成して記憶部11に記録する。
制御部10は、操作部13からの入力を受け付ける(S12)。ここでは、ユーザは、文字領域候補の指定操作、ページ送り操作、又は終了操作の何れかをすることができるものとする。ユーザが文字領域候補の指定操作をしたと判定された場合(S12;指定操作)、制御部10は、指定された文字領域候補内に文字が含まれるか否かを判定する(S13)。S13においては、制御部10は、学習データと文字領域候補内の画素値とに基づいて、文字領域候補内に文字が含まれるか否かを判定する。
文字領域候補内に文字が含まれると判定された場合(S13;Y)、制御部10は、指定操作により指定された文字領域候補内を拡大表示させる(S14)。S14においては、制御部10は、図8に示す電子書籍画像20から文字領域候補の内部を切り出して、表示部14に拡大して表示させる。
一方、ユーザがページ送り操作をしたと判定された場合(S11;ページ送り操作)、制御部10は、次のページを表示部14に表示させ(S15)、S5の処理に戻る。なお、表示中のページを示す情報は、記憶部11に記憶されているものとする。S5に戻った後は、当該次のページに対してS5〜S11の画像処理が実行されて、文字領域候補が抽出されることになる。
ユーザが終了操作をしたと判定された場合(S12;終了操作)、本処理は終了する。なお、S5〜S11で記憶部11に記録されたデータは、本処理の終了時に破棄してもよいし、表示部14から該当するページが表示されなくなったときに破棄してもよい。他にも例えば、表示部14に表示されているページとのページ差が基準以上になった場合に破棄してもよい。
以上説明した電子書籍表示装置1によれば、文字群24A,24Bの各文字を拡大して互いに結合させ、文字群24A,24Bの各文字をひとかたまりにしたうえで文字判定をすることができるので、文字群24A,24Bの各文字に対して個別に文字判定をする場合に比べて、電子書籍画像20に含まれる文字群24A,24Bの領域を迅速に特定することができる。更に、文字を個別に判定する場合には、ある文字と他の文字が互いに関連する1つの文字群であるのかを特定することができないが、電子書籍表示装置1は、文字群24A,24Bのように、互いに関連する文字同士を文字群のかたまりとして認識することができる。更に、電子書籍の購入時などに、各文字群の位置を示すデータを予め記憶部11に記憶させておくような場合に比べて、電子書籍を表示させる場合に動的に文字群の認識を行うので、メモリ容量を有効活用することができる。
また、文字群24A,24Bが拡大して、吹き出し線23A,23Bに結合してしまうと、文字群をかたまりとして認識することができないが、電子書籍表示装置1は、吹き出し線23A,23Bと文字群24A,24Bとが結合しないように制限するので、文字群をかたまりとして認識することができ、文字判定の精度も向上させることができる。更に、吹き出し線23A,23Bをノイズとして除去することで、拡大表示した際に吹き出し線23A,23Bも拡大されてしまうようなことを防止することができる。
更に、吹き出し線23A,23Bの領域を背景色で塗りつぶすことによって、比較的簡易な処理で、文字群24A,24Bと結合しないようにすることができるので、電子書籍表示装置1の処理負荷を軽減することができる。
また、小さな領域を文字判定の対象外とすることで、ノイズを確実に除去することができ、明らかに文字が含まれていない領域に対しても文字判定をすることがなくなり、無駄な処理を実行することがなくなる。更に、小さな領域を記憶部11に記憶させず破棄する場合には、メモリ領域の有効活用をすることができる。
また、小さな領域を背景色で塗りつぶすことによって、比較的簡易な処理で、文字判定の対象外とすることができるので、電子書籍表示装置1の処理負荷を軽減することができる。
また、指定操作により指定された文字領域候補に対して文字判定を行うことによって、ユーザが指定していない文字領域候補以外に対しては文字判定をしないので、無駄な文字判定をする必要がなくなり、電子書籍表示装置1の処理負荷を軽減することができる。
また、文字が含まれると判定された文字領域候補を拡大表示することによって、文字を1つずつ認識するような場合に比べて、迅速に文字群の拡大表示をすることができる。更に、文字をひとかたまりにしたうえで文字判定を行うので、1文字ずつ拡大するのではなく、文字のかたまりを拡大表示させることができる。
[4.変形例]
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
例えば、各コマ21に描かれる文字は、キャラクタが発する言葉だけでなく、キャラクタの心情や漫画の効果音を表すものであってもよい。このような文字であっても、拡張部104が領域を拡張することで、文字をかたまりとして認識可能である。また、実施形態では、漫画の台詞が英語で記述されている場合を例に挙げたが、電子書籍表示装置1で文字認識が可能な言語であればよく、他の言語であってよい。更に、キャラクタの台詞が横書きで記述される場合を説明するが、縦書きであってもよい。この場合、横書き用の学習パターンと、縦書き用の学習パターンと、の2つをデータ記憶部100に用意しておき、文字判定部108は、横書き用と縦書き用の学習パターンの何れかで文字領域と判定されれば、文字領域候補を文字領域と判定すればよい。
また例えば、結合制限部103が行う2値化反転処理は省略してもよい。また、実施形態では、文字が吹き出し線に囲われている場合を説明したが、文字は、吹き出し線に囲われていなくてもよい。この場合、結合制限部103の処理は省略してよい。また、文字は、所定のフォントであってもよいし、手書きであってもよい。手書きの文字であっても、拡張部104の処理により文字をかたまりとして認識可能である。更に、吹き出し・コマ・ページによって、文字のフォントや大きさ・色彩・輝度が異なってもよい。フォントや大きさ・色彩・輝度が異なっていたとしても、拡張部104が画像内の領域を拡張させることで、文字をかたまりとして認識可能である。
また例えば、文字判定部108により文字を含むと判定された文字領域候補を拡大表示する場合を説明したが、文字を含むと判定された文字領域候補に対する処理内容は、拡大表示に限られない。他にも、電子書籍表示装置1は、文字を含むと判定された文字領域候補内の文字を翻訳するようにしてもよいし、機械音声を出力するようにしてもよい。更に、電子書籍表示装置1は、文字を含むと判定された文字領域候補内をOCRにより文字抽出を行い、当該抽出した文字のデータを記憶部11に記録して、電子書籍における文字検索を可能なようにしてもよい。更に、表示制御部102は、文字領域と判定された文字領域候補内を切り出して拡大表示するのではなく、OCRにより検出した文字のデータに基づいて拡大表示してもよい。
また例えば、実施形態では、電子書籍の一例として漫画を説明したが、文字を含む電子書籍であれば、本発明は適用可能である。例えば、文字の周りに一定のスペースが存在する絵本や雑誌等に対しても、実施形態と同様の文字領域の抽出が可能なため、絵本や雑誌等に適用してもよい。
Claims (9)
- 電子書籍の画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段と、
前記画像取得手段により取得された画像データに基づいて、電子書籍画像を表示手段に表示させる表示制御手段と、
前記電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段と、
前記拡張手段により拡張して結合した領域内に文字が含まれるか否か判定する文字判定手段と、
を含むことを特徴とする電子書籍表示装置。 - 前記電子書籍表示装置は、前記電子書籍画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域と、前記拡張手段により拡張した領域と、が結合することを制限する結合制限手段を更に含む、
ことを特徴とする請求項1に記載の電子書籍表示装置。 - 前記結合制限手段は、前記電子書籍画像に含まれる物体を示す領域の輪郭又は当該領域自身の大きさが基準以上である場合、当該領域を背景色で塗りつぶすことによって、前記拡張手段により拡張した領域と結合することを制限する、
ことを特徴とする請求項2に記載の電子書籍表示装置。 - 前記電子書籍表示装置は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域が前記文字判定手段の判定対象となることを制限する判定制限手段を更に含む、
ことを特徴とする請求項1〜3の何れかに記載の電子書籍表示装置。 - 前記判定制限手段は、前記拡張手段により拡張した領域の輪郭又は当該領域自身の大きさが基準未満である場合、当該領域を背景色で塗りつぶすことによって、前記文字判定手段の判定対象となることを制限する、
ことを特徴とする請求項4に記載の電子書籍表示装置。 - 前記電子書籍表示装置は、前記拡張手段により拡張した領域の指定操作を受け付ける指定操作受付手段を更に含み、
前記文字判定手段は、前記指定操作受付手段により受け付けられた指定操作により指定された領域内に文字が含まれるか否かを判定する、
ことを特徴とする請求項1〜5の何れかに記載の電子書籍表示装置。 - 前記表示制御手段は、前記文字判定手段により文字が含まれると判定された領域内を拡大して表示させる、
ことを特徴とする請求項1〜6の何れかに記載の電子書籍表示装置。 - 電子書籍の画像データを記憶する手段に記憶された前記画像データを取得する画像取得ステップと、
前記画像取得ステップにより取得された画像データに基づいて、電子書籍画像を表示手段に表示させる表示制御ステップと、
前記電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張ステップと、
前記拡張ステップにより拡張して結合した領域内に文字が含まれるか否か判定する文字判定ステップと、
を含むことを特徴とする電子書籍表示方法。 - 電子書籍の画像データを記憶する手段に記憶された前記画像データを取得する画像取得手段、
前記画像取得手段により取得された画像データに基づいて、電子書籍画像を表示手段に表示させる表示制御手段、
前記電子書籍画像に含まれる物体を示す複数の領域の各々を拡張して結合させる拡張手段、
前記拡張手段により拡張して結合した領域内に文字が含まれるか否か判定する文字判定手段、
としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/069955 WO2017009910A1 (ja) | 2015-07-10 | 2015-07-10 | 電子書籍表示装置、電子書籍表示方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2017009910A1 true JPWO2017009910A1 (ja) | 2017-07-13 |
Family
ID=57756956
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016509172A Pending JPWO2017009910A1 (ja) | 2015-07-10 | 2015-07-10 | 電子書籍表示装置、電子書籍表示方法、及びプログラム |
JP2017528611A Active JP6294572B2 (ja) | 2015-07-10 | 2016-07-05 | 画像処理装置、画像処理方法、及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017528611A Active JP6294572B2 (ja) | 2015-07-10 | 2016-07-05 | 画像処理装置、画像処理方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10572759B2 (ja) |
JP (2) | JPWO2017009910A1 (ja) |
CA (1) | CA2991106C (ja) |
TW (1) | TWI633498B (ja) |
WO (2) | WO2017009910A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7067262B2 (ja) * | 2018-05-21 | 2022-05-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0271379A (ja) * | 1988-09-07 | 1990-03-09 | Fuji Xerox Co Ltd | 画像処理装置 |
JPH08221513A (ja) * | 1995-02-10 | 1996-08-30 | Canon Inc | 画像処理装置及びその方法 |
JP2000181931A (ja) * | 1998-12-18 | 2000-06-30 | Sharp Corp | 自動オーサリング装置および記録媒体 |
JP2001143074A (ja) * | 1999-11-10 | 2001-05-25 | Minolta Co Ltd | 画像処理装置、画像処理方法および画像処理プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2002165079A (ja) * | 2000-11-27 | 2002-06-07 | Minolta Co Ltd | 画像処理装置及び方法 |
JP2005328348A (ja) * | 2004-05-14 | 2005-11-24 | Ricoh Co Ltd | 画像処理装置、プログラム、及び記憶媒体 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0540849A (ja) | 1991-08-05 | 1993-02-19 | Oki Electric Ind Co Ltd | 文書画像の領域抽出方法 |
US5920655A (en) | 1995-02-10 | 1999-07-06 | Canon Kabushiki Kaisha | Binarization image processing for multi-level image data |
JP4150842B2 (ja) * | 2000-05-09 | 2008-09-17 | コニカミノルタビジネステクノロジーズ株式会社 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
EP1555804A3 (en) | 2004-01-19 | 2006-08-16 | Ricoh Company, Ltd. | Image processing apparatus, image processing program and storage medium |
JP4349183B2 (ja) | 2004-04-01 | 2009-10-21 | 富士ゼロックス株式会社 | 画像処理装置および画像処理方法 |
JP2010057017A (ja) * | 2008-08-29 | 2010-03-11 | Konica Minolta Business Technologies Inc | 画像処理装置および画像処理方法 |
KR100967379B1 (ko) * | 2009-11-04 | 2010-07-05 | (주)올라웍스 | 그래프 컷의 초기값을 설정하는 방법, 단말 장치, 및 컴퓨터 판독 가능한 기록 매체 |
KR101727137B1 (ko) * | 2010-12-14 | 2017-04-14 | 한국전자통신연구원 | 텍스트 영역의 추출 방법, 추출 장치 및 이를 이용한 번호판 자동 인식 시스템 |
TWM457241U (zh) * | 2012-11-26 | 2013-07-11 | Ya Technology Co Ltd | 結合擴增實境的圖像文字辨識系統 |
-
2015
- 2015-07-10 WO PCT/JP2015/069955 patent/WO2017009910A1/ja active Application Filing
- 2015-07-10 JP JP2016509172A patent/JPWO2017009910A1/ja active Pending
-
2016
- 2016-07-05 US US15/742,024 patent/US10572759B2/en active Active
- 2016-07-05 JP JP2017528611A patent/JP6294572B2/ja active Active
- 2016-07-05 WO PCT/JP2016/069884 patent/WO2017010351A1/ja active Application Filing
- 2016-07-05 CA CA2991106A patent/CA2991106C/en active Active
- 2016-07-07 TW TW105121569A patent/TWI633498B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0271379A (ja) * | 1988-09-07 | 1990-03-09 | Fuji Xerox Co Ltd | 画像処理装置 |
JPH08221513A (ja) * | 1995-02-10 | 1996-08-30 | Canon Inc | 画像処理装置及びその方法 |
JP2000181931A (ja) * | 1998-12-18 | 2000-06-30 | Sharp Corp | 自動オーサリング装置および記録媒体 |
JP2001143074A (ja) * | 1999-11-10 | 2001-05-25 | Minolta Co Ltd | 画像処理装置、画像処理方法および画像処理プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2002165079A (ja) * | 2000-11-27 | 2002-06-07 | Minolta Co Ltd | 画像処理装置及び方法 |
JP2005328348A (ja) * | 2004-05-14 | 2005-11-24 | Ricoh Co Ltd | 画像処理装置、プログラム、及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CA2991106C (en) | 2021-02-16 |
CA2991106A1 (en) | 2017-01-19 |
US20180189589A1 (en) | 2018-07-05 |
US10572759B2 (en) | 2020-02-25 |
JP6294572B2 (ja) | 2018-03-14 |
WO2017009910A1 (ja) | 2017-01-19 |
TW201705042A (zh) | 2017-02-01 |
TWI633498B (zh) | 2018-08-21 |
WO2017010351A1 (ja) | 2017-01-19 |
JPWO2017010351A1 (ja) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106254933B (zh) | 字幕提取方法及装置 | |
US20110305397A1 (en) | Systems and methods for retargeting an image utilizing a saliency map | |
JP5695257B1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
US20160078631A1 (en) | Information processing device, image modification method, and computer program product | |
KR20150106330A (ko) | 화상 표시 장치 및 화상 표시 방법 | |
CN111461070B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
JP6294572B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN104504712B (zh) | 图片处理方法和装置 | |
CN115019324A (zh) | 文本扫描的交互方法、装置、计算机设备和存储介质 | |
JP2010074342A (ja) | 画像処理装置、画像形成装置、及びプログラム | |
CN108804652B (zh) | 封面图片的生成方法、装置、存储介质和电子装置 | |
JP6337680B2 (ja) | 画像処理システム、画像処理装置、プログラム及び画像処理方法 | |
JP5991704B1 (ja) | 電子書籍表示装置、電子書籍表示方法、及びプログラム | |
KR20120035360A (ko) | 문자 인식 장치 및 방법 | |
JP2017049686A (ja) | 画像処理装置 | |
US9159118B2 (en) | Image processing apparatus, image processing system, and non-transitory computer-readable medium | |
JP5672168B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP7459151B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム | |
WO2023017723A1 (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム | |
WO2017203705A1 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP2008165538A (ja) | 画像処理装置及び画像処理装置の制御方法 | |
JP3594625B2 (ja) | 文字入力装置 | |
JP6603722B2 (ja) | 画像処理装置およびプログラム | |
JP5206529B2 (ja) | 画像処理装置、情報処理装置、画像読取装置およびプログラム | |
JP2024002327A (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム |